ROZPRAWA DOKTORSKA REDUKCJA NAKŁADÓW OBLICZENIOWYCH W OPTYMALIZACJI PROCESÓW METALURGICZNYCH PROMOTOR: PROF. DR HAB. INŻ.

Transkrypt

1 AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA W KRAKOWIE WYDZIAŁ INŻYNIERII METALI I INFORMATYKI PRZEMYSŁOWEJ KATEDRA INFORMATYKI STOSOWANEJ I MODELOWANIA ROZPRAWA DOKTORSKA REDUKCJA NAKŁADÓW OBLICZENIOWYCH W OPTYMALIZACJI PROCESÓW METALURGICZNYCH MGR INŻ. ŁUKASZ SZTANGRET PROMOTOR: PROF. DR HAB. INŻ. JAN KUSIAK KRAKÓW 2014

2 Choć może się to wydawać paradoksalne, ideą dominującą we wszystkich naukach ścisłych jest przybliżanie. Bertrand Russell ( ) 2

3 Spis treści Spis treści... 3 Stosowana notacja... 5 Struktura pracy Wprowadzenie Przegląd metod redukcji nakładów obliczeniowych w optymalizacji Teza i cel pracy Strategie optymalizacji Metody optymalizacji Planowanie eksperymentu Eksperyment i doświadczenia czynnikowe Plan eksperymentu Estymacji parametrów modelu Kryteria planowania eksperymentu Kryteria planowania w przestrzeni parametrów Kryteria planowania oceniające dokładność oszacowania regresji Metody wyznaczania planów D-optymalnych Wielowymiarowe plany eksperymentu Struktury modeli wielowymiarowych Plany produktowe Optymalność planów produktowych Zmodyfikowana metoda optymalizacji aproksymacyjnej Klasyczna wersja metody optymalizacji aproksymacyjnej Zmodyfikowana metoda optymalizacji aproksymacyjnej Weryfikacja zmodyfikowanej strategii optymalizacji aproksymacyjnej Funkcje testowe 2D

4 Wielowymiarowa funkcja testowa Optymalizacja chłodzenia blach ze stali DP po walcowaniu na gorąco Podsumowanie i wnioski Literatura

5 Stosowana notacja R R,,,,,,, zbiór liczb rzeczywistych n-krotny iloczyn kartezjański R R liczby lub elementy zbioru zbiór i-ty zbiór zbiór o elementach,, przedział otwarty, przedział domknięty macierz,,!",!",,,# $: ' i-ta macierz element macierzy o współrzędnych i, j macierz transponowana, macierz odwrotna punkt,, lub wektor,, w R, gdzie =2,3, i-ty wektor znalezione rozwiązanie optymalne (punkt, wartość) rzeczywiste rozwiązanie optymalne (punkt, wartość) i-ta współrzędna punktu lub wektora i-ta współrzędna j-tego punktu lub wektora zbiór, liczba, wektor, macierz w i-tej iteracji funkcja o argumentach w zbiorze X i wartościach w zbiorze Y ( )*,,+ )*, zmienna losowa, wektor zmiennych losowych o jednowymiarowym standaryzowanym rozkładzie normalnym (,*,,+,*, zmienna losowa, wektor zmiennych losowych o jednowymiarowym rozkładzie jednostajnym - macierz zerowa lub wektor zerowy 5

6 Struktura pracy Niniejsza rozprawa składa się z ośmiu rozdziałów. Rozdział pierwszy stanowi wprowadzenie do poruszanej tematyki i ogólnie nakreśla problemy, na które można natrafić, wykorzystując algorytmy optymalizacji oraz zawiera podstawowe definicje. Rozdział drugi stanowi przegląd literatury dotyczący sposobów redukcji nakładów obliczeniowych w optymalizacji. W trzecim rozdziale sformułowano tezę i cele pracy, jak również ogólną ideę opracowanej metody. Czwarty rozdział dokładniej przedstawia problemy występujące w optymalizacji rzeczywistych procesów metalurgicznych. Ukazane są w nim różne strategie optymalizacji wraz ze wskazówkami pozwalającymi na wybór najlepszej strategii do rozwiązania konkretnego problemu optymalizacji, głównie wyboru sposobu opisu analizowanego procesu oraz wyboru odpowiedniej metody optymalizacji. Rozdział piąty zawiera szczegółowy opis metod planowania eksperymentu. Na wstępie przedstawiono prosty przykład uzasadniający potrzebę planowania eksperymentu. Następnie omówiono techniki planowania eksperymentu począwszy od wprowadzenia podstawowych pojęć z nimi związanych, poprzez przedstawienie planów optymalnych i skończywszy na omówieniu algorytmów wyznaczania optymalnych planów eksperymentu. Kolejne podrozdziały przedstawiają sposoby planowania eksperymentu dla problemów wielowymiarowych, umożliwiające budowę planu optymalnego w oparciu o optymalne plany generowane w przestrzeniach o niższym wymiarze. Rozdział szósty zawiera dokładny opis opracowanej metody optymalizacji wraz z wynikami przeprowadzonych testów pozwalających na porównanie jej działania z wybranymi algorytmami heurystycznymi. W rozdziale siódmym opisano proces chłodzenia blach ze stali DP i model wykorzystany w procesie optymalizacji. Optymalizację procesu chłodzenia przeprowadzono opracowaną w ramach pracy metodą i wyniki porównano z wynikami otrzymanymi innymi metodami. Ostatni, ósmy rozdział, zawiera podsumowanie niniejszej pracy oraz wnioski. 6

7 1. Wprowadzenie W dzisiejszych czasach zagadnienia związane z optymalizacją, w większym lub mniejszym stopniu, pojawiają się we wszystkich dziedzinach nauki i przemysłu. Znanym i często cytowanym określeniem optymalizacji jest fragment z książki Foundations of Optimization [5] napisanej w 1979 roku przez Charlesa S. Beightlera, Dona T. Phillipsa i Douglassa J. Wilde a: Dążenie człowieka do perfekcji znajduje swój wyraz w optymalizacji. Zajmuje się ona tym, jak opisać i osiągnąć Najlepsze, gdy wiemy już jak mierzyć i zmieniać Dobre i Złe [ ]. Teoria optymalizacji obejmuje studia ilościowe rozwiązań optymalnych i metody ich wyznaczania. Optymalizacja jest dziedziną matematyki zajmującą się znajdowaniem najlepszego rozwiązania danego problemu. Naukowcy wykorzystują metody optymalizacji do rozwiązywania praktycznych zagadnień, z którymi spotykają się w swoich pracach badawczych. Konstruktorzy, opracowując plany nowych urządzeń, dążą do tego, aby ich produkty cechowały się jak największą niezawodnością i najniższą ceną. Architekci, projektując budowle, biorą pod uwagę ich późniejszą wytrzymałość, masę, koszt materiałów. Ekonomiści, przygotowując plan inwestycji, uwzględniają ponoszone ryzyko i możliwe zyski. Technologowie sterujący procesami przemysłowymi mają wzgląd na własności produktu końcowego. Wszystkie wymienione zadania mają jeden wspólny mianownik: rozwiązanie musi być najlepsze w sensie określonego kryterium oceny. Jednakże optymalizacja to nie tylko czasy współczesne. Przykłady problemów optymalizacyjnych można znaleźć już w starożytności. Euklides 1 poszukiwał najkrótszej drogi łączącej dwa punkty. Wergiliusz 2 w poemacie Eneida [83], opisując założenie Kartaginy, jako zadanie optymalizacji wymienia znalezienie optymalnej krzywej, która zawrze maksymalną powierzchnię miasta przy ograniczonej długości murów: Mur wieńczy dziś, potężny gród nowej Kartagi; 1 Euklides z Aleksandrii grecki matematyk, ok. 365 p.n.e. ok. 300 p.n.e. 2 Wergiliusz, właściwie Publius Vergilius Maro poeta rzymski epoki augustiańskiej, 70 p.n.e. 19 p.n.e. 7

8 Kupiwszy ziemi tyle, ile się zamyka Byrsą zwą ją stąd skórą rozesłaną z byka... W czerwcu 1696 roku na łamach Acta Eruditorum (z łac. akta uczonych) Jakob Bernoulli 3 sformułował problem brachistochrony. Nazwa pochodzi od greckich słów brachistos najkrótszy i chronos czas. Zadanie polegało na znalezieniu krzywej, po której pod wpływem działania siły grawitacji przy pominięciu tarcia, masa punktowa przemieści się od punktu A do B w najkrótszym czasie. Rozwiązaniem tego problemu jest łuk cykloidy, a prawidłowe rozwiązania przedstawili: Johann Bernoulli 4, Jakob Bernoulli, Isaac Newton 5, Guillaume François Antoine de l'hospital 6, Gottfried Wilhelm Leibniz 7 oraz Ehrenfried Walther von Tschirnhaus 8. Podobny problem kilkadziesiąt lat wcześniej próbował rozwiązać Galileusz 9. Jednak, jedyne wnioski jakie udało mu się wysnuć, ograniczyły się do stwierdzenia, że fragment okręgu jest lepszym rozwiązaniem niż jakakolwiek z cięciw. W czasie II wojny światowej metody optymalizacji stosowano do rozwiązywania problemów logistycznych związanych z operacjami transportowymi i desantowymi. Prowadzone badania w zakresie teorii podejmowania decyzji i modelowania matematycznego dały początek nowej dyscyplinie naukowej zwanej badaniami operacyjnymi [65]. Po wojnie metody badań operacyjnych zaczęto z powodzeniem stosować do sprawnego zarządzania, głównie w gospodarce i ekonomi. Począwszy od drugiej połowy XX w. wraz ze znaczącym rozwojem przemysłu komputerowego, nastąpił rozkwit teorii optymalizacji. Dzięki komputerom o coraz większej mocy obliczeniowej stało się możliwe rozwiązywanie nowych, dużo bardziej złożonych problemów optymalizacyjnych. Stosując terminologię matematyczną, zadanie optymalizacji można zapisać w następujący sposób: Definicja 1.1 Niech dana będzie metryczna przestrzeń Ω=,, gdzie =R jest zbiorem wartości, a jest metryką. Ponadto, niech dany będzie podzbiór 1 3 Jakob Bernoulli szwajcarski matematyk i fizyk, profesor na uniwersytecie w Bazylei, Johann Bernoulli szwajcarski matematyk i fizyk, profesor na uniwersytecie w Groningen i Bazylei, Sir Isaac Newton - angielski fizyk, matematyk, astronom, filozof, historyk, badacz Biblii i alchemik, profesor na uniwersytecie w Cambridge, Guillaume François Antoine de l'hospital francuski matematyk, członek Francuskiej Akademii Nauk, Gottfried Wilhelm Leibniz niemiecki polihistor: filozof, matematyk, prawnik, inżynier mechanik, fizyk, historyk i dyplomata, założyciel i pierwszy prezes Pruskiej Akademii Nauk, Ehrenfried Walther von Tschirnhaus wynalazca europejskiej porcelany, Galileusz, właściwie Galileo Galilei włoski astronom, astrolog, fizyk i filozof, wykładowca matematyki na uniwersytecie w Pizie i Padwie,

9 nazywany zbiorem rozwiązań dopuszczalnych oraz funkcja $:1 R nazywana funkcją celu lub wskaźnikiem jakości. Zadaniem optymalizacji jest znalezienie takiego punktu 1, że $ $, 1, 1.1 lub $ $, Wybór pomiędzy równaniami (1.1) oraz (1.2) zależny jest od tego, czy rozwiązanie optymalne ma być rozwiązaniem, dla którego funkcja celu przyjmuje wartość najmniejszą (równanie (1.1)) czy największą (równanie (1.2)). W praktyce stosowane jest równanie (1.1), a w przypadku poszukiwania maksimum funkcji celu przyjmuje się $= $. Powyższa definicja uściśla pojęcie zadania optymalizacji oraz wprowadza kolejne terminy, nieodzownie z nim związane: zbiór rozwiązań dopuszczalnych oraz funkcja celu. Definicja 1.2 Zbiór rozwiązań dopuszczalnych 1 jest to zbiór punktów, które brane są pod uwagę w procesie optymalizacji. Zazwyczaj jest on definiowany przez podanie pewnych warunków (zwanych ograniczeniami), które musi spełniać punkt, aby należeć do zbioru 1, np.: ; 0,= =1,,>, 1.3 h =0,@=1,,> A. 1.4 Jeżeli nie określono żadnych ograniczeń, to przyjmuje się, że 1 =. W tej sytuacji (tzn. gdy 1 ==R ), mówi się o optymalizacji bez ograniczeń. W przeciwnym przypadku (tzn. gdy 1 =R ) o optymalizacji z ograniczeniami. Ograniczenia zadane równaniami (1.3) nazywają się ograniczeniami nierównościowymi, te zadane równaniami (1.4) ograniczeniami równościowymi. Definicja 1.3 Funkcja celu (zwana także wskaźnikiem jakości) $:1 R 1.5 9

10 przyporządkowuje każdemu rozwiązaniu 1 pewną wartość liczbową $ R. Funkcja celu (1.5) odwzorowuje zbiór rozwiązań dopuszczalnych w zbiór liczb rzeczywistych. W większości przypadków takie określenie funkcji celu jest wystarczające. Niemniej jednak, niektóre metody optymalizacji z ograniczeniami (np. zewnętrzna funkcja kary) operują na punktach znajdujących się również poza obszarem dopuszczalnym. W takiej sytuacji, funkcja celu musi zostać zdefiniowana dla całego zbioru =R. Również inną postać funkcja celu przyjmuje w przypadku tzw. polioptymalizacji, czyli optymalizacji wielokryterialnej. Wówczas, każde rozwiązanie oceniane jest przez E funkcji: F:1 R G, 1.6 gdzie F=$,,$ G. W wiekach XVII XIX królowały analityczne metody, nazywane również metodami górskiej wspinaczki. Dominowały w nich kwadratowe funkcje celu i wszechobecne pochodne. Wykorzystanie wartości pochodnych funkcji celu klasyfikuje te metody jako metody gradientowe. Metody takie nadawały się jednak tylko do rozwiązywania prostych problemów akademickich. Rozwój komputerów, jaki nastąpił w połowie XX wieku, zaowocował znacznym postępem w dziedzinie optymalizacji. Współcześnie, większość metod optymalizacji to metody iteracyjne. Poszukiwanie rozpoczynają od zadanego punktu startowego i w kolejnych iteracjach zbliżają się do rozwiązania optymalnego, aż do osiągnięcia warunku stopu. Najczęściej stosowanymi warunkami stopu są testy zbieżności [35]: I J I A <L, 1.7 lub: N$O J P $O PN<Q. 1.8 gdzie: L >0,Q >0 to stałe bliskie 0. Dodatkowo, stosowany jest warunek uwzględniający maksymalną liczbę iteracji, po przekroczeniu której procedura kończy swoje działanie bez względu na znalezione optimum. Ogólny schemat metod iteracyjnych przedstawiony został na rysunku

11 Rysunek 1.1. Ogólny schemat blokowy metod optymalizacji. Pojawiły się metody, umożliwiające rozwiązywanie praktycznych problemów, w tym zdefiniowanych przez nieanalityczne funkcje celu (metoda Powella, Rosenbrocka i inne) nazywane metodami bezpośredniego szukania. Jednak dopiero praca opublikowana przez Johna Hollanda w 1975 roku Adaptation in Natural and Artificial Systems zapoczątkowała erę metod heurystycznych (algorytmy genetyczne i ewolucyjne, metoda roju cząstek, algorytmy mrówkowe i immunologiczne). Większość wymienionych metod, z wyjątkiem metod heurystycznych, znajduje zwykle jedynie minimum lokalne zamiast pożądanego, minimum globalnego. Różnicę pomiędzy minimum globalnym a lokalnym wyjaśnia poniższa definicja. Definicja 1.4 Rozwiązanie nazywa się minimum globalnym (lub rozwiązaniem minimalnym) jeżeli dla wszystkich 1 spełniony jest warunek 11

12 $ $. 1.9 Jeżeli warunek ten jest spełniony tylko w pewnym otoczeniu punktu, to rozwiązanie nazywa się minimum lokalnym. Optymalizacja wielomodalnych funkcji celu w znacznym stopniu komplikuje zadanie znalezienia minimum globalnego. Rozwiązanie wyznaczane za pomocą metod bezpośredniego szukania czy też metod gradientowych jest pierwszym napotkanym minimum i zależy od wybranego punktu startowego. Jeżeli punkt startowy znajduje się w obszarze przyciągania minimum globalnego, znalezione minimum będzie globalnym. Problem ten narasta wraz ze wzrostem liczby wymiarów rozwiązywanego problemu. Sytuację tą ilustruje poniższy przykład. Niech zadanie optymalizacji będzie zdefiniowane poprzez funkcję celu (1.10) oraz ograniczenia (1.11): $=0,02 A A cos A +1, Z [, gdzie R, A oznacza normę euklidesową, natomiast Z normę maksimum. Wykresy funkcji celu dla =1 oraz =2 przedstawione zostały na rysunku 1.2. Rysunek 1.2. Wykres funkcji celu (1.10) dla =1 oraz =2 z zaznaczoną na czarno granicą przyciągania minimum globalnego. Analiza przykładu pozwala można zauważyć, że w przypadku optymalizacji jednowymiarowej (dla =1) obszar przyciągania minimum globalnego jest tożsamy z 12

13 obszarem dopuszczalnym. Oznacza to, że rozpoczęcie optymalizacji z dowolnego punktu startowego należącego do obszaru dopuszczalnego zakończy się znalezieniem minimum globalnego. Dla =2 sytuacja ta ulega zmianie. Teraz prawdopodobieństwo wyznaczenia minimum globalnego jest równe stosunkowi pola powierzchni obszaru przyciągania minimum globalnego do pola powierzchni całego obszaru dopuszczalnego i wynosi \ = [ ] 4 78,54%. Wraz ze wzrostem liczby wymiarów prawdopodobieństwo to drastycznie spada (rysunek 1.3). Rysunek 1.3. Zależność pomiędzy prawdopodobieństwem znalezienia minimum globalnego a liczbą wymiarów dla funkcji celu (1.10). Jednym ze sposobów uporania się z tym problemem jest stosowanie metod heurystycznych. Ich wykorzystanie nie gwarantuje wyznaczenia minimum globalnego, lecz zwiększa na nie szanse. Wynika to z faktu, że większość metod heurystycznych stanowią metody populacyjne, wielostartowe. W każdej iteracji operują nie na jednym, lecz na wielu rozwiązaniach. Powoduje to jednak wzrost liczby wywołań funkcji celu, co nie stanowi wielkiego problemu w sytuacji, gdy funkcja celu wyznaczana jest na podstawie wzoru analitycznego. Niemniej jednak, w przypadku, gdy funkcja celu wyznaczana jest na podstawie czasochłonnych symulacji komputerowych, wzrost liczby wywołań sprawia, że czas poszukiwania rozwiązania optymalnego staje się nieakceptowalny. Rozwiązanie tego problemu może być dwojakie: albo poprzez zastąpienie modelu metamodelem, albo poprzez zastosowanie metody optymalizacji, która wyznaczy rozwiązanie w mniejszej liczbie iteracji. Taką metodą jest metoda optymalizacji aproksymacyjnej [34], która podobnie jak algorytmy niedeterministyczne, 13

14 choć w mniejszym stopniu, wykazuje odporność na problemy związane z nieliniowością, nieciągłością czy wielomodalnością funkcji celu przy jednoczesnym ograniczeniu niezbędnych wywołań funkcji celu. W pracy przedstawiono ideę metody oraz, co jest głównym celem rozprawy, jej modyfikacje. Na przykładzie funkcji testowych przedstawione zostało porównanie wydajności zmodyfikowanej metody optymalizacji aproksymacyjnej z: algorytmami genetycznymi, algorytmami ewolucyjnymi (strategie (1+1), (µ+λ), (µ,λ)) oraz metodą roju cząstek. Następnie opracowaną strategię zastosowano do optymalizacji parametrów procesu laminarnego chłodzenia blach ze stali DP. 14

15 2. Przegląd metod redukcji nakładów obliczeniowych w optymalizacji Pomimo wieloletniego rozwoju teorii optymalizacji problem znalezienia rozwiązania optymalnego w oparciu o czasochłonne symulacje numeryczne nie znalazł dobrego rozwiązania. Analiza literatury tematu pozwala zauważyć, że stosowane sposoby redukcji nakładów obliczeniowych dzielą się na trzy grupy: zastąpienie modelu poprzez szybszy metamodel, zmniejszenie liczby koniecznych symulacji numerycznych poprzez wykorzystanie odpowiedniej metody optymalizacji, redukcja wymiaru problemu optymalizacji poprzez wykorzystanie analizy wrażliwości i usunięcie najmniej istotnych zmiennych decyzyjnych. Poniżej przedstawiono przegląd wybranych publikacji, będących reprezentatywnymi dla wymienionych metod. Najczęściej stosowanym sposobem na zmniejszenie czasu obliczeń optymalizacyjnych jest zastępowanie dokładnych, ale i kosztownych obliczeniowo modeli poprzez metamodele. Przykład takiego podejścia jest przedstawiony w pracy [21], w której trzy popularne metamodele zostały wykorzystane do rozwiązania problemu redukcji wibracji płata śmigła helikoptera. Zmiennymi decyzyjnymi były parametry przekroju płata oraz jego masa, co w sumie dało 17 zmiennych. Jako metamodele wykorzystano wielomiany drugiego stopnia, model kriging oraz radialne sieci neuronowe. Ponadto, czwarty metamodel, został stworzony jako średnia ważona trzech powyższych. Metamodele opracowano w oparciu o zbiór danych liczący 283 oraz 484 rekordy. Jego wygenerowanie trwało odpowiednio 53 oraz 82 godziny. Błędy metamodeli wynosiły około 25%. Wyjątkiem był metamodel zbudowany w oparciu o sieci neuronowe, którego błąd wynosił około 50%. Stosunkowo duże błędy mogą skutkować tym, że znalezione optimum funkcji celu wyznaczanej na podstawie takich metamodeli może znacznie różnić się od rzeczywistego minimum. Sposób na uniknięcie takiej rozbieżności został zaprezentowany w pracy [20], w której autorzy przedstawiają rozwiązanie dwóch problemów. Pierwszym było otrzymanie profilu skrzydła samolotu zapewniającego odpowiedni rozkład ciśnienia oraz zadane warunki przepływu. Profil był opisany przez krzywe Béziera rozpięte na siedmiu węzłach (co dawało 14 15

16 zmiennych decyzyjnych). Drugim problemem była optymalizacja filtru optycznego składającego się z warstw germanu i siarczku cynku w celu uzyskania zadanego profilu odbicia. Jako algorytmy optymalizacyjne wybrano algorytm genetyczny i ewolucyjny. Przyspieszenie obliczeń uzyskano, stosując metamodel zbudowany w oparciu o radialne sieci neuronowe. Ocena nowej populacji składała się z dwóch etapów. Najpierw, na podstawie sąsiadów każdego z osobników, tworzona była lokalna aproksymacja za pomocą sieci neuronowej i na jej podstawie wyznaczana była wartość funkcji celu. Tylko s-procent nowej populacji był następnie oceniany na podstawie symulacji numerycznej. Podobne rozwiązanie zastosowali autorzy w pracy [9] dla metody roju cząstek. Każda cząstka opisywana jest nie tylko przez swoje położenie, prędkość i wartość funkcji celu, ale również przez współczynnik wiarygodności określający dokładność wyznaczonej funkcji celu (dla cząstek ocenianych przez rzeczywistą funkcję celu współczynnik ten przyjmuje wartość 1). Dla każdego nowego położenia cząstki (nazywanej w pracy cząstką potomną) definiują oni cztery wektory rodziców. Są nimi: najlepsze dotychczasowe rozwiązanie znalezione przez cały rój, najlepsze dotychczasowe rozwiązanie znalezione przez daną cząstkę oraz położenie danej cząstki w dwóch poprzednich iteracjach. Wartość funkcji celu oraz współczynnika wiarygodności jest wyznaczana na podstawie wartości funkcji celu oraz wiarygodności cząstek rodzicielskich. Ocena cząstki za pomocą rzeczywistej funkcji celu zachodzi tylko w momencie, gdy wartość współczynnika wiarygodności cząstki potomnej jest niższy od pewnego przyjętego progu. Autorzy przedstawili działanie opracowanej metody na przykładzie kilku funkcji testowych. Podobne podejście zaprezentowane jest w pracy [7]. Ocena tylko części osobników stanowiących populację w algorytmie ewolucyjnym odbywa sie na podstawie kosztownej symulacji modelu. Pozostała część jest oceniana przy zastosowaniu lokalnej interpolacji lub analizy regresji. Przedstawione wyniki optymalizacji przy użyciu kilku funkcji testowych potwierdziły skuteczność takiego podejścia. Choć nieco lepsze wyniki autorzy uzyskali, stosując analizę regresji na miejsce interpolacji. W pracy [1] przedstawiono teoretyczne rozważania dotyczące optymalizacji przy użyciu algorytmu ewolucyjnego i metamodelu stworzonego w oparciu o sztuczne sieci neuronowe. W pierwszej iteracji osobniki oceniane są na podstawie modelu. Otrzymane wyniki wykorzystywane są jednak nie tylko do wyboru populacji rodzicielskiej, ale 16

17 również do uczenia sztucznej sieci neuronowej. W kolejnych iteracjach algorytmu coraz większa część populacji oceniana jest w oparciu o metamodel, a coraz mniejsza przez model. Niestety autorzy nie przedstawili żadnych wyników numerycznych pozwalających na ocenę jakości znalezionego rozwiązania. Przykłady zastosowania metamodelu w analizie odwrotnej można znaleźć w [76, 77]. W obu pracach zastosowano metamodel zbudowany z wykorzystaniem sztucznych sieci neuronowych, do symulacji próby plastometrycznej, w oparciu o którą przeprowadzono identyfikację współczynników równania opisującego naprężenie uplastyczniające. Wyniki identyfikacji otrzymane za pomocą metamodelu okazały się zgodne z wynikami otrzymanymi na podstawie modelu MES. Zupełnie inne podejście, które można zaliczyć do drugiej grupy metod pozwalających na redukcję czasu obliczeń optymalizacyjnych, zostało przedstawione w pracy [75]. Zaproponowano w niej pewną modyfikację metody roju cząstek poprzez zastosowanie lokalnej analizy wrażliwości (ang. Sensitivity analysis, SA). Analiza wrażliwości pozwala wykorzystać pewne dodatkowe informacje o charakterze funkcji celu, które mogą przyspieszyć zbieżność metody. W algorytmie PSO analiza wrażliwości umożliwia zmianę prędkości cząstki, poprzez dodanie wektora korekcji tak, aby przemieszczała się ona w kierunku potencjalnie lepszych obszarów. Wektor korekcji wyznaczany był na podstawie sąsiadów danej cząstki. Działanie zmodyfikowanej metody porównano z jej oryginalną wersją przy wykorzystaniu funkcji testowych oraz przy optymalizacji parametrów procesu spęczania osiowosymetrycznego. Przedstawione wyniki pokazały redukcję liczby wywołań funkcji celu nawet o 80%. Modyfikacje algorytmu genetycznego mające na celu zmniejszenie liczby wywołań funkcji celu zostały przedstawione w pracy [66]. Autorzy zaproponowali, aby osobnik potomny dziedziczył po swoich rodzicach nie tylko cechy, ale również wartość funkcji przystosowania. Przystosowanie potomka liczone było, jako średnia ważona przystosowania rodziców. Wagi były uzależnione od podobieństwa potomka do jednego i drugiego rodzica. Bardzo podobne podejście zostało przedstawione w pracy [56], przy czym zastosowane do algorytmu roju cząstek. Miejsce rodziców przejęły teraz pozycja lidera roju oraz poprzednie położenie danej cząstki. W pracy przetestowano 19 różnych sposobów wyznaczania przystosowania cząstki w kolejnej iteracji przy zastosowaniu do optymalizacji funkcji testowych. 17

18 Jako przykład wykorzystania analizy wrażliwości do zmniejszenia wymiaru problemu optymalizacji można podać publikację [45]. Autorzy wykonali analizę wrażliwości modelu systemu chłodzenia blach za stali DP po walcowaniu na gorąco względem parametrów trzyetapowego cyklu chłodzenia. Do obliczeń wykorzystano metodę Morrisa oraz Sobola. Innym przykładem redukcji liczby zmiennych przeprowadzonej dla modelu procesu ciągłego wyżarzania i uzyskanej z wykorzystaniem analizy wrażliwości można, znaleźć w [70]. Autorka zastosowała trzy algorytmy (Morrisa, Sobola i McKay a), w wyniku których zmodyfikowano model, dostosowując go do analizowanego materiału i procesu. 18

19 3. Teza i cel pracy Coraz dokładniejsze, ale i bardziej wymagające obliczeniowo modele, mogą powodować znaczne wydłużenie czasu potrzebnego na rozwiązanie problemu optymalizacji opartego o taki model. Przedstawione w poprzednim rozdziale sposoby skrócenia tego czasu najczęściej opierają się na zastąpieniu, całkowitym lub częściowym, modelu przez szybszy metamodel. Innym sposobem na redukcję czasu obliczeń optymalizacyjnych jest opracowanie metody optymalizacji, która znajduje rozwiązanie optymalne w mniejszej liczbie wywołań funkcji celu. Takie podejście zostało wykorzystane przez autora w niniejszej pracy. Zatem przedmiotem rozprawy jest Zmodyfikowana Metoda Optymalizacji Aproksymacyjnej powstała dzięki opracowanym w ramach pracy ulepszeniom istniejącej metody optymalizacji aproksymacyjnej. Głównym celem wprowadzonych modyfikacji jest przyspieszenie zbieżności metody, co implikuje następującą tezę pracy: TEZA: Zmodyfikowana Metoda Optymalizacji Aproksymacyjnej (ang. Modified Approximation Based Optimization Method MABO) pozwala na skrócenie czasu obliczeń i umożliwia znajdowanie w sposób efektywny rozwiązań optymalnych dla procesów metalurgicznych, w których wyznaczenie funkcji celu wymaga czasochłonnych symulacji. CEL: Celem pracy jest opracowanie nowej metody optymalizacji, opartej na metodzie optymalizacji aproksymacyjnej oraz wykazanie jej przydatności w optymalizacji procesów metalurgicznych na przykładzie wybranego procesu. Ogólna idea metody MABO polega na tym, że rzeczywista funkcja celu $ zastępowana jest funkcją aproksymującą ;. Procedurę optymalizacyjną rozpoczyna się, ustalając pewien początkowy zbiór punktów złożony z rozwiązań dopuszczalnych. Zbiór ten jest generowany przez opracowany algorytm opierający się o teorię planowania eksperymentów. Dla każdego z wygenerowanych punktów wyznaczana jest wartość funkcji celu oraz waga określająca jego udział w wyznaczaniu współczynników funkcji aproksymującej ;. W każdej iteracji wyznaczane jest minimum funkcji ;, które 19

20 powiększa zbiór punktów wykorzystywanych w kolejnych iteracjach. W celu przyspieszenia zbieżności algorytmu opracowano algorytm zmian wag poszczególnych punktów. Po powiększeniu zbioru punktów, ich wagi są mnożone przez odpowiednio zdefiniowaną funkcję sklejaną pierwszego stopnia. Dzięki temu wagi punktów znajdujących się blisko optimum stają się coraz większe i rośnie ich wpływ na kształt funkcji ;. Postawiony cel pracy podzielono na następujące cele cząstkowe: 1. Opracowanie założeń metody MABO. Przyjęto założenie, że opracowana metoda będzie bazowała na metodzie optymalizacji aproksymacyjnej. Kolejnym założeniem było przyjęcie funkcji aproksymacyjnej ;, która pozwala na wyznaczyć jej minimum bez konieczności stosowania dodatkowego algorytmu optymalizacji. Przyspieszenie zbieżności miało zostać osiągnięte dzięki wprowadzeniu wag określających udział każdego punktu w wyznaczaniu współczynników funkcji aproksymacyjnej oraz odpowiednie ich zmiany w trakcie działania metody. 2. Opracowanie dedykowanego algorytmu generowania początkowego zbioru punktów opartego o teorię planowania eksperymentów. Realizacja tego celu możliwa jest po zapoznaniu się z zasadami planowania eksperymentu 3. Opracowanie algorytmu metody MABO wraz z algorytmami pomocniczymi. Opracowanie algorytmu MABO oraz spełnienie założeń metody wymaga opracowania dodatkowych procedur. Takim algorytmem będzie wykorzystywany w metodzie MABO algorytm generowania wag początkowych. Wartości wagi w poszczególnych punktach powinny być uzależnione od wartości funkcji celu, tak aby funkcja ; dokładniej przybliżała obszar, w którym znajdują się lepsze rozwiązania. Najistotniejszym algorytmem, mającym wpływ na szybkość zbieżności metody, jest algorytm zmian wag w trakcie procesu optymalizacji. Powinien on zwiększać udział punktów leżących w pobliżu minimum, w wyznaczaniu współczynników funkcji ;, dzięki czemu, minimum funkcji ; będzie zbliżać się do minimum funkcji $. 4. Implementacja opracowanych algorytmów w środowisku MATLAB. 5. Przeprowadzenie testów mających na celu weryfikację opracowanej metody MABO. Weryfikację przeprowadzono w oparciu o stosowane powszechnie funkcje testowe. 20

21 Kolejnym etapem jest walidacja opracowanej metody poprzez porównanie wyników jej działania z wynikami uzyskanymi za pomocą wybranych algorytmów heurystycznych. Do osiągnięcia celu należy zaimplementować metody heurystyczne i przeprowadzić optymalizację wykorzystując powszechnie stosowane w optymalizacji funkcje testowe. 6. Wykorzystanie metody MABO do optymalizacji wybranego procesu metalurgicznego. Ostatnim celem jest wykorzystanie opracowanej metody do optymalizacji procesu metalurgicznego. Otrzymane wyniki posłużą do udowodnienia bądź obalenia przyjętej tezy. 21

22 4. Strategie optymalizacji schematu: Każdy proces metalurgiczny można przedstawić za pomocą następującego Rysunek 4.1. Proces. gdzie: wektory ` oraz à oznaczają wejścia procesu, a b oraz b wyjścia. Przyjęte rozróżnienie pomiędzy wektorami wejściowymi ma na celu oddzielenie wejść mierzalnych ` od niemierzalnych à. Wejściami mierzalnymi są wszystkie parametry, które mają wpływ na proces i których wartość można określić. Do wejść niemierzalnych należy zaliczyć wszystkie wejścia, których wartości nie można zmierzyć oraz wejścia nieobjęte wiedzą na temat procesu. W skład wejść mierzalnych wchodzą zarówno wejścia sterujące (na wartość których można wpływać), jak i wejścia niezależne (wartość których jest znana, ale nie ma możliwości jej zmiany). Podobny podział mierzalnych sygnałów wejściowych procesu został zaproponowany w [73]. Wyjściem procesu mogą być wszystkie występujące w nim wielkości lub własności otrzymywanego w jego wyniku produktu. Przyjęty podział rozróżnia wielkości wyjściowe pod względem wykorzystania ich w późniejszej optymalizacji procesu. Wektor wyjść b nie będzie uwzględniany, podczas gdy wartości wektora b będą brane pod uwagę w procedurze optymalizacji. Wektory à oraz b nie będą brane pod uwagę w dalszych rozważaniach. Z technologicznego punktu widzenia, do opisu procesu w celu jego późniejszej optymalizacji, konieczne jest określenie: wektora zmiennych wejściowych `, zależności pomiędzy wyjściem procesu a jego wejściem, ograniczeń technologicznych, optymalnego wektora wyjściowego b d`e. Odniesienie sukcesu w poszukiwaniu rozwiązania problemu optymalizacji możliwe jest dzięki zastosowaniu odpowiedniej strategii optymalizacji. Zgodnie ze słownikiem języka polskiego [67] słowo strategia oznacza zaplanowany sposób prowadzenia 22

23 jakichś działań, zwykle na wielką skalę i długoterminowych. W przypadku poszukiwania minimum funkcji celu danej wzorem (takie funkcje często stosowane są jako funkcje testowe, służące do sprawdzania skuteczności metod optymalizacji), dobór strategii sprowadza się jedynie do wyboru odpowiedniej metody optymalizacji. Gdy zadanie optymalizacji dotyczy rzeczywistego procesu, funkcja celu wyznaczana jest na podstawie jego wartości wyjściowych. Fakt ten niesie ze sobą pewne konsekwencje. Po pierwsze wydłuża to czas wyznaczania wartości funkcji celu, który w przypadku procesu opisanego za pomocą modelu numerycznego wymagającego przeprowadzenia skomplikowanych symulacji komputerowych [42, 50], może wynieść nawet kilka godzin. Po drugie, nie ma możliwości analitycznego wyznaczenia dodatkowych informacji o funkcji celu, takich jak gradient czy hesjan, a ich numeryczne wyznaczenie często jest zbyt czasochłonne. Wszystkie te czynniki muszą być wzięte pod uwagę podczas opracowywania strategii optymalizacji. Najistotniejsze z nich to: wybór zmiennych optymalizacji, określenie istniejących ograniczeń 1 f, sformułowanie funkcji celu =$(), wybór sposobu opisu optymalizowanego procesu, wybór metody optymalizacji. Wybór zmiennych optymalizacji oraz nałożenie na nie ograniczeń najczęściej narzucone są przez analizowany proces. Należy podkreślić, że wektor wejściowy procesu ` nie zawsze jest tożsamy z wektorem zmiennych optymalizacji. W wielu sytuacjach nie wszystkie składowe wektora ` podlegają optymalizacji. Zmienne niepodlegające optymalizacji oznaczone będą przez wektor g. Zatem wektor ` przyjmuje postać: `=,g h. 4.1 Można podjąć próbę zmniejszenia liczby zmiennych decyzyjnych stosując analizę wrażliwości. Analiza wrażliwości jest metodą pozwalającą zbadać, jak duży wpływ na wartość funkcji celu mają poszczególne zmienne optymalizacji [30, 45, 57, 58, 69]. W przypadku, gdy któraś z nich ma znikomo mały wpływ, można przyjąć ją za stałą i usunąć z wektora zmiennych decyzyjnych. Funkcja celu najczęściej wyrażona jest jako norma z różnicy pomiędzy aktualnym wyjściem procesu b (zależnym od wartości 23

24 wektora zmiennych decyzyjnych) a wyjściem optymalnym b dè (najlepszym pod względem postawionego problemu optymalizacji): = b b dè. 4.2 Takie wyznaczanie wartości funkcji celu sprawia, że wartość R. Możliwe jest obliczanie wartości funkcji celu jako wektora, którego składowe odpowiadają różnicom pomiędzy składowymi wektorów b oraz b dè : i= b b dè. 4.3 Wówczas i R G,E =dim b i konieczne jest zastosowanie metody optymalizacji wielokryterialnej, jednak takie podejście nie jest w niniejszej pracy poruszane. Wybór sposobu opisu optymalizowanego procesu należy podjąć, biorąc pod uwagę czas, jaki jest potrzebny na wykonanie symulacji numerycznej pozwalającej wyznaczyć wyjście procesu, a co za tym idzie, wartość funkcji celu. Jeżeli czas ten jest pomijalnie mały, proces optymalizacji można przeprowadzić w oparciu o model procesu, jeżeli nie, celowe jest zastąpienie modelu szybszym metamodelem. Schemat strategii optymalizacji opartej o model procesu przedstawiony jest na rysunku 4.2. Rysunek 4.2. Schemat strategii optymalizacji opartej o model procesu. Metoda optymalizacji generuje kolejne przybliżenia rozwiązania optymalnego, uwzględniając nałożone ograniczenia 1 f. Wektor wejść modelu ` tworzony jest poprzez powiększenie wektora o wektor nie uwzględnionych w optymalizacji wejść g zgodnie z (4.1). Model wyznacza wyjście procesu, na podstawie którego obliczana jest wartość funkcji celu poprzez porównanie jej z wartością b dè. Jeżeli czas potrzebny na wykonanie pojedynczej symulacji jest znaczący, należy rozważyć zastąpienie modelu 24

25 szybszym metamodelem. Metamodel określany jest jako model modelu, co należy rozumieć, że dane wykorzystywane do wyznaczenia współczynników metamodelu są generowane za pomocą modelu. Definicja zawarta w [35] mówi: Metamodel jest to pewna abstrakcja stworzona na bazie modelu (niższego poziomu) analizowanego rzeczywistego procesu (obiektu) zbudowanego z wykorzystaniem wybranych metod modelowania matematycznego. Metamodelem może być każda aproksymacja modelu analizowanego procesu. Do najczęściej stosowanych technik, w oparciu o które budowane są metamodele procesów metalurgicznych, należy zaliczyć sztuczne sieci neuronowe (ang. Artificial Neural Network, ANN) [11, 24, 49, 80] oraz metodę powierzchni odpowiedzi (ang. Response Surface Methodology, RSM) [19, 44, 46]. Obie te metody z powodzeniem były stosowane do metamodelowania procesów z zakresu metalurgii [36, 37, 72, 74, 76, 77]. Tworzenie metamodelu rozpoczyna się od zaplanowania eksperymentu (DoE). Plan ten generowany jest na podstawie wektora funkcji rozpinających metamodel m oraz ograniczeń nałożonych na wektor zmiennych wejściowych 1 n. W jego wyniku otrzymuje się zbiór punktów \, w których należy wykonać symulacje numeryczne oparte o model procesu. Uczenie metamodelu odbywa się na podstawie otrzymanych zbiorów \ oraz o. Generowanie planu jest zagadnieniem na tyle złożonym, że poświęcony mu został odrębny, piąty rozdział. Rysunek 4.3. Strategia optymalizacji oparta o metamodel procesu. W strategii optymalizacji opartej o metamodel (rysunek 4.3) wartości funkcji celu wyznaczane są nie za pomocą modelu tylko metamodelu, co w znacznym stopniu 25

26 skraca czas potrzebny na znalezienie rozwiązania optymalnego. Wybór techniki, w oparciu o którą zbudowany będzie metamodel, należy uzależnić od liczebności zbioru uczącego, która jest możliwa do wygenerowania w racjonalnym czasie. W przypadku małej liczby punktów dokładniejszym metamodelem okazuje się metamodel zbudowany w oparciu o metodę powierzchni odpowiedzi. Gdy możliwe jest wygenerowanie większej ich liczby, lepiej jest zastosować sztuczną sieć neuronową. Testy porównawcze tych dwóch technik można znaleźć w [78]. Ostatnią czynnością w opracowywaniu strategii optymalizacji jest wybór metody optymalizacji. Jest on dokonywany na podstawie informacji o funkcji celu. Sposób wyboru schematycznie został przedstawiony na rysunku 4.4, który jest niewielką modyfikacją rysunku zawartego w [38]. Rysunek 4.4. Wybór metody optymalizacji. Pierwszy podział zależy od czasu potrzebnego na wyznaczenie funkcji celu. Jeżeli jest on nie akceptowalnie długi możliwe jest zastosowanie strategii opartej o metamodel, jednak proces generowania zbioru uczącego również będzie czasochłonny. Możliwe jest zastosowanie innego podejścia, polegającego na wykorzystaniu metody optymalizacji znajdującej optimum w mniejszej liczbie wywołań funkcji celu. Taką metodą jest opracowana w ramach pracy zmodyfikowana metoda optymalizacji aproksymacyjnej MABO. Jej dokładny opis znajduje się w rozdziale 6. 26

27 Jeżeli czas wyznaczania funkcji celu jest pomijalnie mały należy dokonać wyboru pomiędzy metodami gradientowymi i bezgradientowymi. Wybór ten jest uzależniony od dostępności gradientu funkcji celu. W przypadku jej braku, istnieje możliwość numerycznego wyznaczenia gradientu, lecz jest to podejście efektywne w przypadku optymalizacji funkcji niewielu zmiennych. Ostatnim wyborem jest ten uzależniony od liczby minimów lokalnych. Większość klasycznych metod optymalizacji znajduje pierwsze napotkanie minimum. Z tego powodu w przypadku funkcji wielomodalnej celowe jest zastosowanie algorytmów heurystycznych. Jeżeli dostępny jest gradient funkcji celu, stosowane są metody hybrydowe, które są połączeniem różnych metod. Połączenie metod heurystycznych z gradientowymi zapewnia odporność na minima lokalne oraz dokładniejsze znalezienie minimum funkcji celu. Poniżej zamieszczono krótki opis wymienionych metod optymalizacji i modelowania Metody optymalizacji Prace nad teorią optymalizacji zaowocowały powstaniem szeregu różnych metod. Wybór odpowiedniej metody jest uzależniony od postawionego problemu optymalizacji. Poniżej przedstawiono tylko krótką charakterystykę najczęściej stosowanych metod. Szczegółowo przedstawiono jedynie metody niedeterministyczne z uwagi na ich wykorzystanie w pracy. Dokładny opis pozostałych metod można znaleźć w bogatej literaturze tematu [13, 14, 27, 33, 35, 47, 48, 62, 63, 68]. Metody bezgradientowe Metody bezgradientowe, zwane również metodami bezpośredniego szukania, wykorzystują jedynie znajomość funkcji celu. Dzielą się na dwie grupy: metody optymalizacji jednowymiarowej oraz wielowymiarowej. Poszczególne metody w różny sposób wyznaczają długość kroku i, w przypadku optymalizacji wielowymiarowej, kierunek poszukiwań na podstawie znajomości funkcji celu w poszczególnych punktach. Do ich zalet należy zaliczyć łatwość implementacji, ponieważ nie wymagają znajomości gradientu. Ich zastosowanie jest jednak ograniczone ze względu na fakt, że znajdowane minimum jest pierwszym napotkanym. Do grupy tych metod zalicza się, m. in. metody Hooke'a-Jeevesa, Rosenbrocka, sympleks Neldera-Meada, Powella, itp. Metody gradientowe Gradientowe metody optymalizacji, oprócz wartości funkcji celu, wykorzystują również jej gradient. Znajomość gradientu pozwala na określenie kierunku 27

28 najszybszego wzrostu funkcji celu, dzięki czemu metody gradientowe wykazują większą zbieżność w stosunku do metod bezpośredniego szukania. Ich zastosowanie ogranicza się jednak do funkcji, dla których znany jest gradient. Istnieje możliwość numerycznego wyznaczenia gradientu funkcji w danym punkcie, ale jest to związane ze znacznym wzrostem liczby wywołań funkcji celu. Wadą metod gradientowych, podobnie jak bezgradientowych, jest tendencja do zatrzymywania się w pierwszym napotkanym minimum. Do grupy tych metod zalicza się metody najszybszego spadku, gradientów sprzężonych, Newtona czy metody quasi-newtonowskie. Metody niedeterministyczne Największą zaletą metod niedeterministycznych jest dowolna postać funkcji celu. Może ona być nieliniowa, wielomodalna, a nawet nieciągła. Dodatkowo, metody te nie wymagają znajomości ani gradientu, ani wyższych pochodnych funkcji celu. Zastosowanie probabilistycznych reguł wyboru sprawia jednak, że nie zawsze rozwiązanie optymalne zostanie odnalezione. Dlatego, jeżeli dla rozpatrywanego problemu możliwe jest zastosowanie metod deterministycznych, należy je wykorzystać, ponieważ zazwyczaj okazują się skuteczniejsze. Metody niedeterministyczne należy stosować do rozwiązywania problemów, dla których inne metody okazują się być zbyt trudne do implementacji lub zbyt czasochłonne. Do grupy tych metod zalicza się m. in. algorytmy genetyczne i ewolucyjne, metodę roju cząstek. Algorytmy genetyczne Algorytmy genetyczne (ang. Genetic Algorithms GA) [10, 22, 23, 26, 41, 59, 82] są metodami optymalizacji inspirowanymi występującą w przyrodzie teorią ewolucji związaną z doborem naturalnym, ewolucją i dziedziczeniem. Powstały one w wyniku prac prowadzonych na Uniwersytecie Michigan pod kierunkiem Johna Hollanda. Metody te stosują kilka prostych mechanizmów: naturalną selekcję, rekombinację genetyczną i mutację. Algorytmy genetyczne różnią się od klasycznych głównie tym, że: przetwarzają zakodowaną postać rozwiązania, prowadzą poszukiwania, startując z pewnej populacji rozwiązań początkowych, korzystają wyłącznie z funkcji przystosowania, stosują probabilistyczne reguły wyboru. Rozwiązania przetwarzane w algorytmie genetycznym nie są oceniane przez funkcję celu tylko przez funkcję przystosowania, która jest pewną modyfikacją funkcji celu. Różnica pomiędzy mini polega na tym, że funkcja przystosowania musi przyjmować 28

29 wartości dodatnie oraz na tym, że lepsze rozwiązania zawsze posiadają wyższą wartość przystosowania. Takie wymagania są konieczne ze względu na występującą w algorytmie metodę selekcji. Algorytmy genetyczne przetwarzają populację osobników. Każdy osobnik składa się jednego chromosomu, który reprezentuje zmienne optymalizacji i jest kodowany za pomocą łańcucha o określonej długości z zastosowaniem skończonego alfabetu. Najczęściej stosuje się alfabet zero jedynkowy, a osobniki kodowane są za pomocą naturalnego kodu binarnego (NKB). Każdy element chromosomu (wartość 0 lub 1) nosi nazwę genu. Pierwszym krokiem algorytmu jest utworzenie populacji bazowej. Krok ten jest wykonywany tylko raz i polega na wylosowaniu odpowiedniej liczby osobników. W każdej iteracji algorytmu, poprzez zastosowanie trzech operatorów genetycznych, tworzona jest nowa, coraz lepiej przystosowana populacja bazowa. Operatorami tymi są: selekcja (reprodukcja), krzyżowanie, mutacja. Operator selekcji odpowiada za wybór osobników tworzących populacje rodzicielską. Wybór ten jest losowy, ale uzależniony od wartości funkcji przystosowania poszczególnych osobników. Im wyższa wartość funkcji przystosowania, tym osobnik ma większe szanse na wylosowanie. Istnieje wiele sposobów realizacji operatora selekcji. Najprostszą stosowaną metodą jest metoda koła ruletki. W metodzie tej prawdopodobieństwo wylosowania danego osobnika jest równe ilorazowi wartości funkcji celu osobnika i wskaźnika dopasowania całej populacji. Wskaźnik dopasowania populacji jest równy sumie wartości funkcji przystosowania wszystkich osobników wchodzących w skład populacji. Nazwa metody nawiązuje do koła podzielonego na wycinki. Każdy osobnik ma przyporządkowany wycinek proporcjonalny do wartości funkcji przystosowania. Pojedynczy obrót koła wyłania jednego osobnika kopiowanego do populacji rodzicielskiej. Następnie na populacji rodzicielskiej wykonywane są operatory krzyżowania i mutacji. Operator krzyżowania przebiega w dwóch etapach. W pierwszym z populacji rodzicielskiej losowo wybierane są dwa osobniki. W drugim, wylosowana para, z pewnym prawdopodobieństwem przechodzi proces krzyżowania (prawdopodobieństwo krzyżowania p G jest parametrem algorytmu). Losowany jest 29

30 punkt krzyżowania E (E<), po czym pomiędzy osobnikami rodzicielskimi wymieniane są geny na pozycjach od E+1 do włącznie, tworząc dwa osobniki potomne. Następnie osobniki potomne są mutowane (również z pewnym prawdopodobieństwem, zwanym prawdopodobieństwem mutacji p q ). Dla każdego genu w chromosomie losowana jest liczba z przedziału 0,1. Jeżeli jest ona mniejsza lub równa zadanej wartości p q wówczas wartość genu zmieniana jest na przeciwną. Po zakończeniu mutacji osobniki są zapisywane w populacji potomnej, która staje się populacją bazową w kolejnej iteracji algorytmu. Liczba iteracji algorytmu powinna być ograniczona do pewnej maksymalnej wartości, po przekroczeniu której algorytm zakończy poszukiwania bez względu na dotychczas otrzymane wyniki. Zakończenie poszukiwań powinno również nastąpić w chwili otrzymania rozwiązanego uważanego za dostatecznie bliskie optymalnemu. Algorytmy ewolucyjne Algorytmy ewolucyjne (ang. Evolutionary Algorithms EA) [2, 4, 41, 61] opierają się na tych samych założeniach co algorytmy genetyczne. Jednak w odróżnieniu od GA osobniki wchodzące w skład populacji nie są kodowane. W skład algorytmów ewolucyjnych wchodzą trzy podstawowe strategie 10 : strategia (1+1), strategia (r+s), strategia (r,s). Strategie te różnią się między sobą liczebnością populacji, stosowanymi operatorami, liczbą chromosomów z jakiej składa się osobnik oraz sposobem wyboru osobników do populacji bazowej w kolejnej iteracji. Poniżej przedstawiono opis każdej z nich. Strategia (1+1) W strategii (1+1) populacja składa się tylko z jednego osobnika, który zbudowany jest z jednego chromosomu. Nie występuje w niej operator krzyżowania. W każdej kolejnej iteracji algorytmu jeden nowy osobnik generowany jest za pomocą operatora mutacji. Selekcja ogranicza się do wyboru osobnika o wyższej wartości funkcji przystosowania. Operator mutacji tworzy nowego osobnika poprzez dodanie do każdego genu losowej liczby. Dodawana liczba jest iloczynem zasięgu mutacji t ( ) i 10 Słowo strategia należy tu rozumieć jako wariant, nie jak to zostało przedstawione na początku rozdziału 4. 30

31 liczby losowej ( )(*,) o rozkładzie normalnym u(0,1). Nowy osobnik otrzymywany jest za pomocą następującej zależności: ( ) = ( ) +t ( ) + )(*,) Zasięg mutacji jest parametrem algorytmu ewolucyjnego, który w czasie jego działania ulega zmianie. Algorytm zmienienia wartości zasięgu mutacji nosi nazwę reguły 1/5 sukcesów. Działa on następująco: jeżeli w ciągu kolejnych E iteracji liczba mutacji zakończonych sukcesem (tzn. gdy osobnik potomny okazywał się lepszy od swojego rodzica) jest większa niż 1/5 liczby wszystkich mutacji, zasięg mutacji jest zwiększany: t J = t, >1, jeżeli liczba mutacji zakończonych sukcesem jest mniejsza niż 1/5 liczby wszystkich mutacji, zasięg mutacji jest zmniejszany: t J = w t, w <1, jeżeli liczba mutacji zakończonych sukcesem jest równa 1/5 liczby wszystkich mutacji, zasięg mutacji nie ulega zmianie. Stałe oraz w przyjmuje się równe: w =0,82, = 1 ] w 1,22. Zaletą strategii 1+1 jest szybkość działania wynikająca z faktu, że populacja składa się tylko z jednego osobnika. Wadą jest niewielka odporność na minima lokalne. Strategia r+s W strategii r+s przetwarzana jest populacja składająca się z r osobników. Każdy osobnik składa się z dwóch chromosomów. Jeden zawiera wektor zmiennych niezależnych (reprezentujący punkt w przestrzeni poszukiwań), drugi wektor wartości standardowych odchyleń y. Odchylenia standardowe są wykorzystywanych przez operator mutacji i pełnią analogiczną rolę jak zasięg mutacji występujący w strategii 1+1. Oprócz operatora mutacji w strategii r+s występuje operator krzyżowania. Operator selekcji, poprzez losowanie ze zwracaniem, tworzy z liczącej r osobników populacji bazowej populację rodzicielską liczącą s osobników (stąd nazwa strategii). Identycznie jak w przypadku algorytmów genetycznych, prawdopodobieństwo wylosowania danego osobnika jest proporcjonalne do wartości jego funkcji przystosowania. Populacja bazowa, podobnie jak w przypadku algorytmów genetycznych jest tworzona losowo. Proces mutacji można podzielić na trzy etapy. 31

32 W pierwszym etapie losowana jest liczba o rozkładzie normalnym u(0,1). W drugim następuje zmiana odchyleń standardowych każdego osobnika zgodnie ze wzorem: t ( J) =t ( ) z { } ~ (, ) J ~ (, ) ƒ,@=1,,dim(y), (4.1.2) gdzie: i są parametrami algorytmu, których wartości przyjmuje się równe: = A, ˆ= A. Wartość Š zazwyczaj przyjmuje się równą 1, natomiast jest równe wymiarowi przestrzeni decyzyjnej. Po uaktualnieniu wartości wektora y modyfikuje się wartości wektora zmiennych niezależnych : ( J) = ( ) +t ( J) ( )(*,),@=1,,dim(). (4.1.3) Przewagą, jaką posiada operator mutacji w strategii (r+s) w porównaniu ze strategią (1+1) jest brak narzuconej z góry wielkości charakteryzującej mutację (liczba sukcesów). W strategii (r+s) efekt adaptacji zasięgu mutacji jest konsekwencją mechanizmu selekcji (premiowanie lepszych osobników). Drugim operatorem jest operator krzyżowania, który może być realizowany w różny sposób. Najczęściej używa się metody polegającej na uśrednieniu wartości chromosomów osobników rodzicielskich. W metodzie tej wykorzystuje się liczbę losową o rozkładzie jednostajnym z przedziału 0,1, oznaczaną przez (,(*,). Oznaczając dwa osobniki wylosowane do krzyżowania przez (,y f ) oraz Oi,y P, osobniki potomne powstają według zależności: =(,(*,), (4.1.4) ( J) = ( ) +(1 )i ( ), (4.1.5) i ( J) =i ( ) +(1 ) ( ), (4.1.6) y f ( J) =yf ( ) +(1 )y ( ), (4.1.7) y ( J) =y ( ) +(1 )yf ( ), (4.1.8) 32

33 W przeciwieństwie do algorytmów genetycznych wszystkie osobniki poddawane są mutacji i krzyżowaniu. Populacja bazowa w kolejnej iteracji algorytmu tworzona jest poprzez wybranie r osobników z sumy populacji bazowej i populacji potomnej. Strategia (r,s) Strategia ta jest bardzo podobna do strategii (r+s). Jedyna różnica polega na tym, że populacja bazowa w kolejnej iteracji algorytmu tworzona jest poprzez wybranie r osobników tylko z populacji potomnej. Metoda roju cząstek Metoda roju cząstek (ang. Particle Swarm Optimization, PSO) [12, 17, 18, 29, 74], podobnie jak opisane wcześniej algorytmy genetyczne i algorytmy ewolucyjne, jest wzorowana na mechanizmach występujących w przyrodzie. Jednak w przeciwieństwie do GA i EA nie opiera się ona na teorii ewolucji, tylko na zachowaniu się populacji osobników. W metodzie tej cząstki (utożsamiane z rozwiązaniami rozpatrywanego problemu) przemierzają przestrzeń decyzyjną (obszar zamieszkiwany przez populacje), podążając za cząstką reprezentującą najlepsze dotychczasowe rozwiązanie, jednocześnie zapamiętując najlepsze położenie w jakim do tej pory się znalazły. Każda cząstka opisywana jest przez dwa wektory: wektor położenia oraz wektor prędkości. W każdej iteracji algorytmu wyznaczany jest nowy wektor prędkości i na jego podstawie następuje zmiana położenia cząstki. Inicjalizacja roju polega na nadaniu cząstkom losowego położenia i prędkości. Położenie powinno być losowane z obszaru dopuszczalnego. Losując prędkość trzeba uwzględnić wielkość tego obszaru. Zbyt mała prędkość sprawia, że rój nie będzie w stanie przeszukać całego obszaru dopuszczalnego, natomiast przy zbyt dużej prędkości cząstki będą obijać się o ograniczenia. Zmiana wektora prędkości w kolejnych iteracjach następuje zgodnie ze wzorem: m ( J) =Œm ( ) + (,(*,) {` ( ) ƒ+a (,(*,) {` ( ) ƒ, gdzie: oraz m są odpowiednio położeniem i prędkością j-tej cząstki w i-tej iteracji, ` określa najlepsze położenie znalezione do tej pory przez cały rój, ` jest najlepszym dotychczas znalezionym rozwiązaniem przez j-tą cząstkę, Œ jest współczynnikiem bezwładności, oraz A są to współczynniki przyspieszenia (nazywane również współczynnikami uczenia). Nowe położenie cząstki jest równe: 33

34 ( J) = ( ) +m ( J) Po przemieszczeniu, cząstki podlegają ocenie i ponownie wyznaczany jest lider roju. Dobór wartości współczynników wpływa na zachowanie się roju. Wartość współczynnika bezwładności zazwyczaj wybierana jest z przedziału 0 Ž, Ž 1. Większa wartość sprzyja globalnemu przeszukiwaniu przestrzeni rozwiązań, mniejsza lokalnemu. Zwykle jego wartość jest stała podczas całego procesu optymalizacji, jednak może również się zmieniać. Wówczas na początku przyjmuje ono dużą wartość, umożliwiając przeszukiwanie globalne i w miarę zbliżania się do szukanego minimum stopniowo się zmniejsza. Współczynniki przyspieszenia najczęściej są równe i wybierane z przedziału 0 Ž, Ž 2. Przy wyborze ich wartości należy mieć na uwadze maksymalne prędkości, których cząstki nie powinny przekroczyć. Jako kryterium zakończenia obliczeń (stopu), podobnie jak w GA i EA, przyjmuje się przekroczenie maksymalnej liczby iteracji lub otrzymanie zadowalającego rozwiązania. 34

35 5. Planowanie eksperymentu Ważnym etapem w przygotowywaniu niniejszej rozprawy było planowanie eksperymentu, które ma istotny wpływ na dokładność modelu. Warto zwrócić uwagę na ten aspekt modelowania, ponieważ najczęściej stosowane w praktyce plany polegają na równomiernym pokryciu obszaru planowania, zastosowaniu kwadratów łacińskich (ang. Latin Hypercube Sampling, LHS) lub losowo wybieranych punktów z całego zakresu obszaru planowania, mogą powodować duże błędy w modelowaniu i późniejszej optymalizacji. Pierwsze wzmianki o planowaniu eksperymentu (ang. Design of Experiment, DoE) datowane są na lata dwudzieste XIX wieku [6, 84]. Początkowo dotyczyły one zagadnień związanych z rolnictwem, np. doboru odpowiednich gatunków czy sposobu upraw. Złe zaplanowanie eksperymentu mogło być zauważone i naprawione dopiero w kolejnych latach. W latach trzydziestych techniki DoE zaczęły być stosowane również w przemyśle, głównie chemicznym. Podczas kolejnych dziesięcioleci planowanie eksperymentów zaczęto wykorzystywać nie tylko w coraz liczniejszych gałęziach przemysłu, ale również w badaniach laboratoryjnych. Planowanie eksperymentu polega na doborze punktów, w których wykonywane są pomiary/symulacje w taki sposób, aby model opracowanych na ich podstawie był jak najdokładniejszy. Problem planowania eksperymentu często jest bagatelizowany i pomijany, o czym świadczyć może nieliczna literatura przedmiotu na ten temat. A przecież planowanie eksperymentu posiada istotny wpływ na dokładność zbudowanego w jego oparciu modelu i powinno stanowić podobnie jak w niniejszej pracy istotny etap prac. Duży wpływ na wyznaczone wartości współczynników modelu ma plan eksperymentu, co pokazano na poniższych przykładach, eksponujących różnice wynikające z zastosowania różnych planów. Niech dana będzie funkcja liniowa jednej zmiennej $()=0,5+2. Zadanie polega na wyznaczeniu współczynników funkcji ;()=+ w przedziale 1,1. Aby jednoznacznie wyznaczyć wartości współczynników oraz konieczne jest wykonanie dwóch pomiarów. Błąd bezwzględny pomiaru w każdym punkcie jest stały, równy 0,25. W pierwszym przypadku, niech pomiary wykonywane będą w punktach = 0,1 oraz A =0,1. Wówczas, wyznaczona wartość współczynnika będzie należała do przedziału 2; 3, natomiast wartość współczynnika do przedziału 35

36 1,75;2,25. Przypadek ten jest graficznie przestawiony na rysunku 5.1. Funkcja $() zaznaczona jest na kolor niebieski, czarne znaki x oznaczają punkty pomiarowe z zaznaczonym możliwym błędem pomiaru, czerwone linie przerywane ograniczają obszar, w którym będzie znajdowała się funkcja ;(). Rysunek 5.1. Obszar możliwych wykresów funkcji ;(). W drugim przypadku, niech wybór punktów pomiarowych będzie określony przez optymalny plan eksperymentu, czyli = 1 oraz A =1. Teraz wyznaczona wartość współczynnika będzie należała do przedziału 0,25; 0,75, natomiast wartość współczynnika do przedziału 1,75;2,25. Przypadek ten jest graficznie przestawiony na rysunku 5.2. Rysunek 5.2. Obszar możliwych wykresów funkcji ;(). Analizując powyższy przykład, nie należy wysnuwać wniosków, że wykonywanie pomiarów na brzegach obszaru jest rozwiązaniem najlepszym. Ilustruje to drugi, podobny przykład. Tym razem funkcją interpolowaną niech będzie funkcja kwadratowa jednej zmiennej $()=2 A +1,5. Zadanie polega na wyznaczeniu współczynników funkcji 36

37 ;()= A + w przedziale 1,1. W tym przykładzie również konieczne jest wykonanie dwóch pomiarów. Błąd bezwzględny pomiaru w każdym punkcie jest stały, równy 0,25. W pierwszym przypadku niech pomiary wykonywane będą w punktach = 0,8 oraz A =1. Wówczas wyznaczona wartość współczynnika będzie należała do przedziału 0,61; 3,39, natomiast wartość współczynnika do przedziału 0,36;2,64. Przypadek ten jest graficznie przestawiony na rysunku 5.3. Rysunek 5.3. Obszar możliwych wykresów funkcji ;(). W drugim przypadku, niech wybór punktów pomiarowych będzie określony przez optymalny plan eksperymentu, czyli =0 oraz A =1 (lub w punktach = 1 oraz A =0). Teraz wyznaczona wartość współczynnika będzie należała do przedziału 1,5; 2,5, natomiast wartość współczynnika do przedziału 1,25;1,75. Przypadek ten jest graficznie przestawiony na rysunku 5.4. Rysunek 5.4. Obszar możliwych wykresów funkcji ;(). Powyższe przykłady pokazują, że w obu przykładach zastosowanie optymalnego planu eksperymentu znacznie poprawiło dokładność interpolacji. Dlatego planowanie eksperymentu stało się również istotnym elementem w opracowywanej przez autora 37

38 metodzie. Oczywiście błędy pomiarowe występują zawsze, bez względu, czy pomiar jest dokonywany na rzeczywistym procesie, czy jest wynikiem symulacji komputerowej. Jeżeli pomiary wykonywane są na rzeczywistym procesie, źródłem błędów jest najczęściej niedokładność przyrządów pomiarowych. W przypadku, gdy punkty pomiarowe pochodzą z symulacji komputerowych błędy przyrządów nie występują, ale pojawiają się błędy wynikające z niedokładności modelu. Model nigdy nie jest idealnym odzwierciedleniem rzeczywistego procesu. Występują również błędy zaokrągleń wynikające z dokładności zapisu liczb w komputerze, ale są one pomijalnie małe Eksperyment i doświadczenia czynnikowe Pod pojęciem eksperymentu należy rozumieć badanie jakiegoś zjawiska (lub procesu) polegające na wywoływaniu tego zjawiska oraz obserwacji i wnioskowaniu o jego właściwościach [54]. Wielkości wejściowe analizowanego procesu p,p A,,p wyrażone są zawsze w jednostkach naturalnych, zależnych od charakteru procesu: p p p,==1,2,,. (5.1.1) W celu sformułowania ogólnych zaleceń dotyczących doboru wartości wielkości wejściowych stosuje się standaryzację zmiennych, czyli przeskalowanie ich tak, aby nowe zmienne przyjmowały wartości z przedziału 1,1. Nowe zmienne, oznaczane przez, nazywane są czynnikami 11. Doświadczeniem nazywany jest zestaw u wektorów wejść, A,, ), które zostaną wykorzystane podczas eksperymentu, przy czym każdy z wektorów przyjmuje postać, A,,,==1,2,,u. Do jednych z najczęściej stosowanych form zapisywania eksperymentu należy zaliczyć doświadczenia czynnikowe. Można je podzielić na trzy podstawowe rodzaje [53]: pełne doświadczenia czynnikowe (ang. full factorial experiments), ułamkowe doświadczenia czynnikowe (ang. fractional factorial experiments), kompozycyjne doświadczenia czynnikowe (ang. composite factorial experiments). 11 W celu zachowania zgodności oznaczeń z literaturą, w całym rozdziale 5. wejście modelu przeskalowane do przedziału 1,1 będzie oznaczane przez ( =dim ()), a jego wyjście przez. 38

39 Pełne doświadczenia czynnikowe Wśród pełnych doświadczeń czynnikowych wyróżnia się dwa typy: doświadczenie na dwóch poziomach typ 2 oraz doświadczenie na trzech poziomach typ 3 (rysunek 5.5). W przypadku typu 2 każde z wejść przyjmuje tylko dwie wartości: 1 oraz +1. Liczba takich doświadczeń jest równa 2, co tłumaczy sposób jego oznaczania. Zakres stosowalności ogranicza się do modeli wielomianowych zawierających stałą, składniki liniowe względem oraz składniki postaci dla G dla E i tak dalej, aż do rzędu włącznie. Składniki typu nazywane są oddziaływaniami głównymi, natomiast te, będące iloczynami dwóch lub więcej wejść, nazywane są interakcjami czynników, ponieważ modelują łączny wpływ kilku wejść. Przykładowy model, którego współczynniki można estymować za pomocą pełnego doświadczenia czynnikowego typu 2 przyjmuje postać (dla =3): ()= + A + A + š + A + + œ + A + ž A Istotną zaletą pełnych doświadczeń czynnikowych typu 2 jest ich ortogonalność. Dzięki temu, macierz informacyjna jest macierzą diagonalną (macierzom informacyjnym poświęcony jest rozdział 5.3), co oprócz łatwości wyznaczania estymat, oznacza brak korelacji pomiędzy ocenami poszczególnych współczynników. 39

40 Rysunek 5.5. Pełne doświadczenie czynnikowe typu 2 oraz 3 dla =3. Drugim typem pełnych doświadczeń czynnikowych jest typ 3, w którym każde z wejść przyjmuje trzy wartości: 1,0,+1. Doświadczenia tego typu pozwalają tworzyć modele kwadratowe, czyli zawierające składniki () A. Modele takie są stosowane w przypadku, gdy w badanym obszarze występuje ekstremum modelowanej funkcji, przez co stanowią ważną grupę modeli empirycznych. Ich wadą jest brak ortogonalności. Pewnym ograniczeniem stosowania pełnych doświadczeń czynnikowych jest gwałtowanie wzrastająca liczba doświadczeń wraz ze wzrostem wymiaru przestrzeni. Według literatury tematu, pełne doświadczenia typu 2 stosuje się gdy wartość nie przekracza 6 7, a doświadczenie typu 3 gdy nie przekracza 3 4. Dla większych wartości stosuje się ułamkowe doświadczenia czynnikowe. Ułamkowe doświadczenia czynnikowe Ułamkowe doświadczenia czynnikowe tworzone są poprzez wybór fragmentu z doświadczenia pełnego. Dzięki temu, zmniejszeniu ulega liczba pomiarów, co jednak negatywnie wpływa na dokładność estymacji parametrów modelu. Oznaczane one są jako 2, zazwyczaj przyjmuje wartość 1 lub 2. Przy wyborze części doświadczenia pełnego należy kierować się wymaganiem zachowania ortogonalności. Dokonuje się go najczęściej poprzez nałożenie ograniczenia na wszystkie zestawy wejść (np. A =1). Ograniczenia takie nazywane są kontrastami określającymi. 40

41 Wybór kontrastu określającego ma istotne znaczenie jeżeli w modelu, oprócz oddziaływań głównych, występują również składniki modelujące interakcje. Stosowanie doświadczeń ułamkowych skutkuje tym, że niektóre parametry modelu estymowane są łącznie. Sytuację taką ilustruje poniższy przykład. Z pełnego doświadczenia typu 2 wybrano półpowtórzenie, stosując kontrast określający postaci: A w celu wyznaczenia parametrów modelu (5.1.2). Otrzymane doświadczenie zostało przedstawione na rysunku 5.6. Uwzględniając, że A 1, dla = 1,2,3 oraz mnożąc kontrast określający przez jednomiany, otrzymuje się następujący zestaw relacji: A A, A, A Uwzględniając (5.1.3) oraz (5.1.4) w (5.1.2) otrzymuje się model postaci: ()=( + ž žy A Y Y Y œ A Y š Y co oznacza, że parametry modelu wyznaczane są parami. Z tego powodu, stosowanie półpowtórzeń jest uzasadnione, jeżeli w modelu nie występująą żadne interakcje, ponieważ tylko wtedy œ ž 0. Rysunek 5.6. Ułamkowe doświadczenie czynnikowe typu 2 uzyskane przy zastosowaniu kontrastu (5.1.3). Kompozycyjne doświadczenia czynnikowe Tworząc modele wielomianowe, zawierające kwadraty oddziaływań głównych, nie można używać doświadczeń typu 2, ponieważ liczba wykonywanych pomiarów 41

42 jest zbyt mała do estymacji wszystkich współczynników modelu. W doświadczeniach typu 3 liczba pomiarów okazuje się być nadmiarowa. Kompromisowym rozwiązaniem takiego problemu są kompozycyjne doświadczenia czynnikowe. Doświadczenia kompozycyjne są najczęściej tworzone w oparciu o pełne lub ułamkowe doświadczenia typu 2 uzupełnione o tak zwane doświadczenia gwiezdne oraz doświadczenie centralne. Doświadczenie centralne wykonywane jest w punkcie centralnym, czyli w początku układu współrzędnych. Doświadczenia gwiezdne są wykonywane w punktach o współrzędnych 0,,0,±,0,,0, przy czym ± pojawia się kolejno na wszystkich pozycjach wektora wejść. Dyskusyjna pozostaje długość promienia (ramienia) gwiezdnego ( ). Jedne pozycje literaturowe podają [6], że jedynym kryterium jest konieczność poruszania się w przyjętym obszarze badań, a najczęstszą wartością promienia gwiezdnego jest 1. Według innych [53] przyjęta wartość powinna zapewnić rotatybilność doświadczenia (zapewnić jednakową dokładność estymacji funkcji regresji we wszystkich kierunkach). Dla 2 8 wartości zapewniające rotatybilność doświadczenia powinny być bliskie A. Rysunek 5.7 przedstawia plan doświadczenia składającego się pełnego doświadczenia 2, doświadczeń gwiezdnych ( = A ) oraz doświadczenia centralnego dla =2 oraz = Rysunek 5.7. Kompozycyjne doświadczenie czynnikowe typu 2 A oraz 2 złożone z pełnego doświadczenia (kropki), doświadczeń gwiezdnych (gwiazdki) oraz doświadczenia centralnego (krzyżyk). 42

43 Na zakończenie rozdziału dotyczącego doświadczeń czynnikowych zestawiono liczbę pomiarów, która jest niezbędna do realizacji poszczególnych doświadczeń (tabela 5.1). Tabela 5.1. Zestawienie liczby doświadczeń dla różnych planów (wartości przekreślone oznaczają, że doświadczenia nie są stosowane w praktyce [6]). Typ doświadczenia Liczba pomiarów =2 =3 =4 =5 =6 =7 =8 =9 =10 Pełne dwupoziomowe Ułamkowe dwupoziomowe Pełne trzypoziomowe Kompozycyjne pełne Kompozycyjne ułamkowe Plan eksperymentu Formułowanie planu eksperymentu, jako ciągu, A,, ) nie jest wygodne, zwłaszcza podczas rozważania optymalności planu. Problem optymalizacji musiałby być rozważany w przestrzeni u zmiennych. Dlatego definiując plan eksperymentu, bierze się pod uwagę, że w praktyce często punkty pomiarowe pokrywają się. Niech podciąg, A,, q,> u spełnia następujący warunek: dla gdzie =,@=1,2,,>. Ponadto, dla dowolnego,@>> istnieje,= > taki, że =. Najprostszym zapisem planu eksperymentu, uwzględniającym powyższe założenia, jest plan unormowany. Definicja 5.1. Unormowaną wersją planu ()), lub krótko planem unormowanym, nazywa się tablicę, A,, q p, p A,, p q, 5.2.1) gdzie p ] u,==1,2, >, natomiast jest krotnością, z jaką punkt występuje w ciągu, A,, ). Z definicji 5.1 wynikają następujące fakty: 43

44 q 0, =u, q p 0, p = ) 5.2.3) Ponadto uwzględniając, że p ] u oczywistym jest, że: u p są liczbami naturalnymi,==1,2, > ) Pomijając (5.2.4) uzyskuje się pożyteczne uogólnienie planu unormowanego tak zwany plan ciągły, skupiony w skończonej liczbie punktów. Definicja 5.2. Planem ciągłym, skupionym w skończonej liczbie punktów, nazywa się tablicę, A,, q p, p A,, p q, 5.2.5) której elementami są punkty należące do,==1,2,,> oraz wagi p, spełniające warunki q p 0, p = ) Należy podkreślić, że określenie ciągły w definicji 5.2 odnosi się wyłącznie do pominięcia warunku (5.2.4), czyli do uciąglenia zakresu zmienności wag p i nie nakłada na plan żadnych innych wymagań ciągłości. Zbiór wszystkich planów ciągłych, skupionych w skończonej liczbie punktów ustalonego zbioru oznacza się przez ± lub przez ±, gdy jawnie jest wskazany obszar planowania. Fundamentalną operacją wykonywaną na planach ciągłych jest kombinacja dwóch planów należących do zbioru planów. Definicja 5.3. Dla 0 1 kombinację wypukłą planów ˆ ± i ˆˆ ± oznacza się następująco (1 ) ˆ+ ˆˆ. Dla planów o postaci: ˆ=, A,, q p, p A,, p q, ˆˆ =, A,, qa p, p A,, p qa ich kombinacją wypukłą 1 ˆ+ ˆˆ nazywa się tablicę tej samej postaci jak te w (5.2.7), której elementy powstają następująco: 1) punkty pierwszego wiersza są sumą mnogościową zbiorów: ˆ,ˆA,,ˆq oraz ˆˆ,ˆˆA,,ˆˆqA i są oznaczane przez, A,, q,> >1+>2, 44

45 2) plany ˆ i ˆˆ poszerza się tak oba by miały nośniki, A,, q a punktom nośnika, które w danym punkcie pojawiły się na skutek wykonania kroku 1), przypisuje się wagi o wartościach zero, 3) wagi wynikowe powstają zgodnie ze wzorem (1 ) p ˆ+ p ˆˆ,== 1,2,,>. Kombinacja wypukła planów będzie często używana przy tworzeniu planów optymalnych, zwłaszcza kombinacja planu ciągłego z planem jednopunktowym skupionym w punkcie z wagą 1. Kombinację taką oznacza się przez (1 ) + L f. Mając na uwadze, że w przypadku ciągłych planów skupionych w skończonej liczbie punktów, zależność (5.2.4) nie zawsze jest spełniona, konieczne jest zastosowanie operacji zaokrąglenia liczby pomiarów w każdym z punktów. Ponadto, istotna może okazać się również kolejność wykonywania poszczególnych doświadczeń. Zgodnie z metodologią randomizacji wprowadzonej do statystyki przez Rolanda A. Fishera 12, jeżeli istnieje pewna dowolność wykonywania eksperymentów, należy ją wykorzystać i kolejność pomiarów przyjąć losową. Nie jest to jednak obowiązkowe. Zdarza się, że względy ekonomiczne sugerują wykonywanie doświadczeń w określonej kolejności. Poniżej przedstawiono przykładowy algorytm zaokrąglenia uwzględniający podejście randomizacji. Krok 1: Obliczyć ˆˆ=²u p ³,==1,2,,>, tu ² ³ oznacza, że jest to najbliższa liczba całkowita nie większa niż. Krok 2: Obliczyć liczbę pomiarów, które nie zostały dotąd rozdysponowane u =u q. Krok 3: Losując u krotnie (z powtórzeniami) elementy ze zbioru, A,, q uzupełniać każdorazowo ˆˆ, jeśli punkt został wylosowany Estymacji parametrów modelu W rozdziale 5.1 model był przedstawiony jako pewna zależność (najczęściej wielomianowa) pomiędzy wyjściem a wejściem, której współczynniki są wyznaczane na podstawie serii doświadczeń. W celu przedstawienia problemu 12 Roland Aylmer Fisher brytyjski genetyk i statystyk,

46 dokładności estymacji parametrów modelu konieczne jest sprecyzowanie kilku założeń dotyczących rozważanych modeli. Założenie 1. Gdyby na obiekt eksperymentu nie oddziaływały losowe zakłócenia, to zależność obserwacji wyjścia od wejść byłaby postaci: gdzie oznacza transpozycję, natomiast: µ(, )= m()= G G G(), (5.3.1), A,, jest wektorem nieznanych parametrów, które podlegać będą szacowaniu na podstawie obserwacji, m()= (), A(),, () to wektor znanych funkcji (zadanych na podstawie wiedzy o badanym zjawisku), nazywanych funkcjami rozpinającymi regresję lub model liniowy. Model opisywany zależnością (5.3.1) określa się mianem modelu liniowego a samą zależność zależnością liniową. Podkreślić należy, że termin liniowy odnosi się do liniowej zależności od parametrów modelu, zaś zależność od może być nieliniowa. Założenie 2. Funkcje (), A(),, () są liniowo niezależne w pewnym obszarze R ¹, z którego pochodzą obserwacje i w którym wykorzystywana będzie zależność (5.3.1). Założenie o liniowej niezależności funkcji konieczne jest ze względów numerycznych. Liniowa zależność funkcji rozpinających model może skutkować tym, że macierz układu równań normalnych (5.3.11) okaże się osobliwa, co uniemożliwi wyznaczenie parametrów modelu. Założenie 3. Zakłócenia Q,==1,2,,u są zmiennymi losowymi o wartości oczekiwanej zero i skończonych wariancjach. Ponadto, dla zmienne losowe Q oraz Q są nieskorelowane dla =,@=1,2,,u. Zakłada się również, że zakłócenia te oddziaływują addytywnie na obiekt badań. Dostępne pomiary O, P związane są zależnością: = mo P+Q,==1,2,,u, (5.3.2) dla pewnego wektora parametrów (traktowanych jako prawdziwe wartości). W notacji wektorowej (5.3.2) zapisać można następująco: 46

47 i=º +», gdzie i, A,, ),»=Q,Q A,,Q ) są wektorami kolumnowymi, natomiast º=m( ),m( A ),,m( ) ) jest macierzą o u kolumnach i wierszach. Dodatkowo, o wariancji zakłóceń przyjmuje się jedno z poniższych założeń. Założenie 4a. Wariancje var(q )=t A,==1,2,,u są jednakowe a wartość σ nie jest znana. Założenie 4b. Wariancje var(q )=t A Œ mogą być różne, przy czym t>0 nie jest znane, natomiast ciąg Œ >0,==1,2,,u jest znany. W tym przypadku przyjmuje się: var(q )=t A ( )=t A Œ, gdzie t A jest pewną znaną funkcją opisującą względną dokładność obserwacji w poszczególnych punktach. Założenie 5. Wartości,==1,2,,u są znane dokładnie (bez błędów pomiarowych). Założenie 6. Punkty,==1,2,,u rozmieszczone są tak, że: rządm( ),m( A ),,m( ) )=, gdzie r oznacza liczbę nieznanych parametrów i równocześnie liczbę elementów wektora m. Z założenia 6. wynika oczywisty fakt, że liczba pomiarów nie może być mniejsza od liczby estymowanych parametrów modelu. Jednak dopuszcza się niespełnienie założenia 6. [55]. Wyznaczane są wówczas liniowe kombinacje składowych wektora parametrów. Dodatkowo w warunku (5.3.5) nie występują zakłócenia, przez co nie mają one żadnego wpływu osobliwość macierzy układu równań normalnych (5.3.11). Model składa się zatem z obszaru określoności, zestawu funkcji rozpinających model m oraz funkcji t A lub stałej t A opisującej wariancję zakłóceń i jest oznaczany przez O,m(),t A ()P. Jedną z najczęściej stosowanych metod wykorzystywaną do estymacji parametrów modelu jest metoda najmniejszych kwadratów (MNK). Jest to uzasadnione następującym twierdzeniem: Twierdzenie 5.1. Niech spełnione będę założenia 1, 2, 3, 4b, 5, 6. Wówczas estymator MNK jest najlepszym, w sensie uporządkowania macierzy kowariancji, w klasie wszystkich liniowych i nieobciążonych estymatorów wektora. Jeśli dodatkowo rozkład 47

48 zakłóceń Q,==1,2,,u jest normalny, to powyższa własność zachodzi w klasie wszystkich estymatorów. Polega ona na takim doborze parametrów modelu, aby suma kwadratów różnic pomiędzy wartościami mierzonymi a wyjściami modelu była jak najmniejsza. Niech spełnione będą założenia 1, 3, 4a, 5 oraz 6 i niech znane będą pomiary O, P,== 1,2,,u. Estymatorem otrzymanym metodą najmniejszych kwadratów nazywa się błąd średniokwadratowy wyrażony wzorem: ½( )= { mo Pƒ A ) W przypadku, gdy zamiast założenia 4a spełnione jest założenie 4b to poszczególnym błędom { mo Pƒ A przypisywane są różne wagi ¾ 0. Zazwyczaj, duże wagi przypisuje się punktom, w których wariancja zakłóceń jest mała, np.: ¾ = (f À ),==1,2,,u Wówczas, estymator MNK przyjmuje postać: ½ Á ¾ { mo Pƒ A ) Obie funkcje (5.3.6) oraz (5.3.8) są funkcjami wypukłymi, dlatego wyznaczenie wektora współczynników modelu sprowadza się do rozwiązania równania: ÂÃ Â 0, które dla (5.3.8) przyjmuje postać: ) Ä Å = ¾ mo P, gdzie macierz Ä Å o wymiarze nazywana macierzą układu równań normalnych (5.3.10) dana jest wzorem: ) Ä Å = ¾ mo P m O P

49 Zakładając, że spełnione jest założenie 2 oraz że wagi błędów są dodatnie ¾ >0,== 1,2,,u (gwarantuje to nieosobliwość macierzy Ä Å ) współczynniki modelu wyznacza się ze wzoru: Æ=Ä ) Å Ç Å,Ç Å = ¾ mo P. (5.3.12) Jeżeli dokładność pomiarów jest taka sama we wszystkich punktach, to można przyjąć, że ¾ 1,==1,2,,u. Bardzo istotną kwestią, z punktu widzenia oceny jakości planu eksperymentu (rozdział 5.4), jest ocena dokładności estymacji parametrów. Oceny tej można dokonać na dwa sposoby: szacując dokładność estymacji w przestrzeni parametrów lub badając dokładność oszacowania funkcji regresji. Poniżej przedstawiono opis obu tych metod. W przypadku oceny w przestrzeni parametrów, informacje o dokładności estymacji niesie macierz kowariancji estymatora Æ. Elementy diagonalne macierzy kowariancji [8] cov( Æ)=ÈÉO Æ È( Æ)P O Æ È( Æ)P Ê (5.3.13) przyjmują wartości równe wariancjom ocen odpowiednich współczynników modelu, pozostałe elementy są proporcjonalne do współczynników korelacji pomiędzy ocenami poszczególnych parametrów. Przy spełnionych założeniach 1 6 estymator Æ parametrów modelu jest estymatorem nieobciążonym. Oznacza to, że wartość oczekiwana estymatora parametrów Æ jest równa, bez względu jakie wartości przyjmuje wektor nieznanych parametrów. W dalszym ciągu, zakładając spełnienie założeń 1 6 oraz zakładając, że ¾ {t A ŒO Pƒ, macierz kowariancji estymatora Æ wyznacza się ze wzoru: cov Æt A ) O Œ O P mo P m O PP. (5.3.14) Przy ocenianiu dokładności oszacowania funkcji regresji przyjmuje się, że nieznana funkcja m jest estymowana przez Æ Æ m. Przy spełnionych założeniach 1 6 Æ jest nieobciążonym estymatorem m. Dodatkowo, wśród wszystkich liniowych i nieobciążonych estymatorów funkcji m estymator Æ ma najmniejszą wariancję: varoæpm cov Æ mt A m º Å Ë Å º Å m (5.3.15) 49

50 gdzie macierz º Å o rozmiarze u ma postać º Å m,m( A ),,m( ) ), natomiast Ë Å jest u u macierzą diagonalną o elementach równych ŒO P,== 1,2,,u Kryteria planowania eksperymentu Wśród czynników mających wpływ na dokładności estymacji parametrów modelu można wymienić: 1. wariancję zakłóceń, 2. liczbę pomiarów, 3. obszar eksperymentu, 4. funkcje rozpinające model, 5. plan eksperymentu, 6. metody przetwarzania wyników. W przypadku trzech pierwszych czynników, oczywiste jest, że zmniejszenie zakłóceń, zwiększenie liczby pomiarów oraz zwiększenie obszaru eksperymentu korzystnie wpłynie na dokładność. Niestety, w praktyce takie zmiany często są niemożliwe, głównie z powodów technologicznych czy ekonomicznych. Funkcje rozpinające model przyjmowane są na podstawie pewnej wiedzy a priori o modelowanym zjawisku lub procesie. Ponadto, liczba współczynników które zawierają, musi być mniejsza od liczby wykonywanych podczas doświadczenia pomiarów. Jako metodę przetwarzania wyników najczęściej stosuje się metodę najmniejszych kwadratów. Jednym czynnikiem, na który można dowolnie wpływać jest zatem plan eksperymentu. Istnieje wiele kryteriów umożliwiających ocenę planu eksperymentu. Większość z nich bazuje na analizie macierzy informacyjnej planu eksperymentu. Definiuje się ją następująco: Definicja 5.4. Macierzą informacyjną planu ± zadania estymacji parametrów modelu O,m(),t A ()P nazywa się q Ä( )= p t A O P mo P m O P, 5.4.1) przy założeniu, że t>0,. 50

51 Zakładając, że jest planem ciągłym, skupionym w skończonej liczbie punktów oraz że macierz Ä( ) jest nieosobliwa, to na jej podstawie można ocenić dokładność estymacji parametrów modelu. Macierz kowariancji estymatora Æ jest proporcjonalna do odwrotności macierzy (5.4.1): cov( Æ)=u Ä( ) ) Dla dowolnego ±, Ä jest symetryczną i nieujemnie określoną macierzą o wierszach i kolumnach, gdzie dimomp. Macierz informacyjna Ä planu Ì A q p p A p q Í którego liczba punktów nośnika > jest mniejsza niż jest macierzą osobliwą, co uniemożliwia poprawną estymację parametrów modelu. Zachowanie się macierzy informacyjnych przy transformacjach modelu opisują poniższe dwie własności. Niech Ä będzie macierzą informacyjną planu ± w modelu O,m(),t A ()P, przy założeniu, że t()>0,. Wówczas, Ä( ) jest również macierzą informacyjną tego samego planu w modelu (,m() t (),1). Niech Ä( ) będzie macierzą informacyjną planu ±() w modelu O,m(),t A ()P. Niech,dim()= będzie zadaną macierzą. Macierz informacyjna w modelu O, m(),t A ()P ma postać: Ä( ). Zbiór macierzy informacyjnych osiągalnych w modelu O,m(),t A ()P oznacza się przez M(,m,t) Kryteria planowania w przestrzeni parametrów Oceny planu eksperymentu w przestrzeni parametrów modelu dokonuje się poprzez analizę macierzy kowariancji lub macierzy informacyjnej. Na jej podstawie można wyznaczyć tzw. elipsoidy ufności. Niech ± J =Ï ±:detoä( )P>0Ñ oraz niech będą spełnione założenia 1 6. Wektor nieznanych parametrów modelu zawiera składowych =, A,,

52 Gęstość prawdopodobieństwa n-wymiarowego rozkładu normalnego wynosi: Ò( )=E z Ó ( ), gdzie EÔ ÕÖ"{ÄO Pƒ, natomiast AØ Ù ; Æ ÄO ) P Æ Dla ; ÚÛÜ równanie opisuje elipsoidę ufności. Centrum elipsoidy ufności znajduje się w punkcie Æ i z pewnym prawdopodobieństwem (zależnym od przyjętej wartości ) pokrywa wektor estymowanych parametrów. Oczywistym jest, że dokładność estymacji jest tym większa, im mniejsze są elipsoidy ufności, co z łatwością można uzyskać, zwiększając liczbę pomiarów czy zmniejszając wariancję zakłóceń. Nieco trudniej zwiększyć dokładność estymacji poprzez zmianę planu eksperymentu. Z tego powodu stosowane są odpowiednie kryteria optymalności. Kryterium D-optymalności Często spotykanym sposobem porównywania jakości planów eksperymentu jest zastosowanie funkcji Ψ detoä P. Wartość funkcji Ψ jest proporcjonalna do pierwiastka z objętości elipsoidy ufności, zatem jeżeli Ψ Ψ A, to wykorzystanie planu zapewni nie większy błąd estymacji niż wykorzystanie planu A, gdzie, A ± J. Uwzględniając, że detoä ( )P= 1 Þ problem detoä( )P minimalizacji detoä ( )P można przedstawić jako zadanie maksymalizacji detoä( )P, co prowadzi do definicji planu D-optymalnego: Definicja 5.5. Plan nazywa się D-optymalnym jeżeli detoä( )P=max à detoä( )P W praktyce stosuje się jednak funkcję Φ lnoψ Pln{detOÄ Pƒ. Wprowadzenie logarytmu nie zmienia znaczenia definicji 5.7 ze względu na ścisłą monotoniczność funkcji logarytm, a jest uzasadnione poniższą własnością. 52

53 Niech model O,m(),t A ()P będzie ustalony. Funkcja lnodet( )P rozpatrywana na zbiorze M jest funkcją wklęsłą, a rozpatrywana na zbiorze Mâ jest ściśle wklęsła, gdzie Mâ jest zbiorem nieosobliwych, osiągalnych macierzy informacyjnych. Własność ta implikuje kolejną. Niech macierz informacyjna planu, D-optymalnego w modelu O,m(),t A ()P będzie nieosobliwa. Jeśli plan jest również D-optymalny, to Ä( )=Ä( ). Wklęsłość funkcji lnodet( )P oznacza, że dla dowolnych Ä,Ä A M oraz (0,1) zachodzi następująca zależność: (1 ) lnodet(ä )P+ lnodet(ä A )P ln{deto(1 )Ä + Ä A Pƒ. (5.4.8) Plany D-optymalne dla modeli różniących się jedynie wyborem parametryzacji są takie same. Oznacza to, że plan D-optymalny dla modelu O,m(),t A ()P jest również planem D-optymalnym dla modelu O, m(),t A ()P, gdzie A jest macierzą kwadratową. Kryterium A-optymalności Inną metodą porównywania planów eksperymentu w przestrzeni parametrów jest analiza elementów diagonalnych odwrotności macierzy informacyjnej. Ponieważ macierz kowariancji cov( Æ) jest proporcjonalna do Ä ( ), to wartość > G ( ) G wyraża średnią wariancję ocen parametrów, gdzie > G ( ) oznacza element leżący na diagonalnej macierzy Ä ( ) dla E=1,2,. Wykorzystanie pojęcia śladu macierzy ułatwia sformułowanie definicji planu A-optymalnego: Definicja 5.6. Plan nazywa się A-optymalnym jeżeli troä ( )P=min à {troä ( )Pƒ. (5.4.9) Ponieważ macierz Ä można przekształcić przez podobieństwo do macierzy w postaci Jordana, której wartości własne znajdują się na diagonali, to ślad macierzy jest równy sumie wartości własnych. Zatem, minimalizacja śladu macierzy Ä pociąga za sobą minimalizację jej wartości własnych, które są proporcjonalne do kwadratu długości osi elipsoidy ufności. Inne kryteria planowania eksperymentu Opisane powyżej kryteria należą na najczęściej stosowanych, co nie oznacza, że one jedynymi. Wśród kryteriów w przestrzeni parametrów można również wymienić 53

54 kryterium: L-optymalności, c-optymalności, E-optymalności, L p -optymalności. Plan doświadczenia spełniający kryterium L-optymalności minimalizuje ślad macierzy Ä, gdzie jest symetryczną i nieujemnie określoną macierzą. Odpowiedni dobór wartości elementów macierzy pozwala na ważoną minimalizację długości poszczególnych osi elipsoidy ufności. Kryterium c-optymalności jest szczególnym przypadkiem kryterium L- optymalności, w którym macierz =ä ä, gdzie wektor ä najczęściej przyjmuje postać ä=0,,0,1,0,,0. Taki wybór wektora ä oznacza, że dokładność estymacji przeprowadzana jest wyłącznie względem jednego z parametrów. Plan E-optymalny zapewnia minimalizację największej wartości własnej macierzy Ä, czyli minimalizację najdłuższej osi elipsoidy ufności. W kryterium L p -optymalnym jako wyznacznik jakości planu stosuje się wyrażenie troä n ( )P n, gdzie p>0. Dla p 0 kryterium L p -optymalności staje się równoważne kryterium D-optymalności, zaś dla p kryterium E-optymalności Kryteria planowania oceniające dokładność oszacowania regresji Dokładności oszacowania regresji w zadanym punkcie x można dokonać, wykorzystując funkcję m ()Ä ( )m(), gdyż jest ona równa wariancji estymatora Æ()= Æ m(). Największa wartość, jaką może przyjść błąd estymacji dla pewnego planu eksperymentu w obszarze jest równa max æ {varoæ()pƒ. Zasadne jest zastosowanie takiego planu, który błąd ten minimalizuje. Stosując plan ± J otrzymuje się varoæ()p=m ()Ä ( )m(). Rozważania te umożliwiają sformułowanie definicji planu G-optymalnego: Definicja 5.7. Plan nazywa się planem G-optymalnym, jeżeli max çà Om ()Ä ( )m()p=min çà Omax çæ Om ()Ä ( )m()pp ) Kolejność operacji min oraz max po lewej stronie równania (5.4.10) sprawia, że dla ustalonego planu wyznaczana jest maksymalna wartość funkcji wariancji w całym obszarze, a następnie poszukiwany jest plan, który tą wartość zminimalizuje. Innym kryterium jest kryterium eksploracji w zadany punkt. Jest ono stosowane, jeżeli szczególnie ważna jest wartość w jednym, wybranym punkcie -. Poszukuje się wówczas planu, który minimalizuje wyrażenie m - Ä m -. Taki plan jest 54

55 planem c-optymalnym dla ä=m( - ). Jeżeli istotna jest dokładność estymacji nie w jednym punkcie, ale w pewnym obszarze * stosowane jest kryterium Q- optymalności. Definicja 5.8. Plan nazywa się Q-optymalnym jeżeli gdzie ë é ê(,)g æ ë =min à {é ê(,)gƒ, ) æ ê,)=œ () m () Ä ( ) m() ) Funkcja ê,) charakteryzuje się dwoma istotnymi własnościami. Funkcja ê(,)=œ () m () Ä () m() dla modelu O,m(),t A Œ()P spełnia następujące zależności: q êo, Pp =, ) sup æ ê,), ) gdzie r jest liczbą estymowanych parametrów. Z własności tej wynika, że dla t A 1 oraz Œ() 1, stosując odpowiedni dobór planu eksperymentu, można zmniejszyć wariancję wyrażenia Æ m() do. Niech ± J i A ± będą dwoma planami w modelu O,m(),t A Œ()P. Wówczas ŽwîO(ï) Jï Ó P ð = +troä ( wï ) Ä( A )P. ï * ) Dodatkowo jeżeli, plan A jest skupiony tylko w jednym punkcie, to: ŽwîOï Jï Ó P ð YŒ m Ä wï m. ï * ) Twierdzenie 5.2. (Kiefer i Wolfowitz) Następujące stwierdzenia są równoważne: 1. plan jest D-optymalny w estymacji modelu,m(),t A ), 2. plan jest G-optymalny w estymacji modelu (,m(),t A ), 3. dla planu spełniony jest warunek sup æ ê(,)= ) 55

56 Ponadto, we wszystkich punktach, A,, q nośnika planu osiągane jest supremum w wyrażeniu (5.4.17), tzn. êo, P=,==1,2,,>. Powyższe twierdzenie pozwala nie tylko na sprawdzenie, czy dany plan jest optymalny, ale również, z uwzględnieniem poniższej własności, pozwala ocenić stratę ponoszoną poprzez zastosowanie planu nieoptymalnego. Niech * ± J będzie pewnym planem dla estymacji modelu (, (),t A ) i niech będzie planem D-optymalnym. Ponadto, niech ê * =sup æ ê( *,). Wówczas spełniona jest następująca nierówność: ê * =ln{detoä( )Pƒ ln{detoä( * )Pƒ ) Oceny straty dokładności dokonuje się poprzez wyznaczenie stopnia niespełnienia warunku optymalności zê *. Ocena taka jest możliwa nawet bez znajomości planu optymalnego Metody wyznaczania planów D-optymalnych Analityczne metody wyznaczania planów optymalnych Wyznaczenie planu optymalnego sprowadza się do określenia punktów nośnika planu, A,, ¹ oraz ich wag p,p A,,p ¹. W przypadku planów skupionych w minimalnej liczbie punktów (tzn. gdy liczba estymowanych parametrów modelu jest równa liczbie punktów nośnika planu) wszystkie wagi przyjmują tę samą wartość równą p =p A = =p = 1 ]. Można to uzasadnić, wyznaczając maksimum wyrażenia p przy ograniczeniach p =1,p 0. Do wyznaczania D-optymalnego planu eksperymentu skupionego w punktach służącego estymacji parametrów modelu wielomianowego stopnia 1 postaci: Æ()=, 5.5.1) gdzie 1,1 oraz t() 1 wykorzystuje się wielomiany Legendre a. Nośniki planu optymalnego są rozwiązaniami następującego równania: (1 A ) wó ôõ (f) wf gdzie \ G jest wielomianem postaci: =0, 5.5.2) 56

57 \ G = A ö G! wö wf ö(a 1) G Wszystkie wagi planu są równe 1 ]. Również w przypadku regresji trygonometrycznej możliwe jest analityczne wyznaczenie planu D-optymalnego. Model trygonometryczny jest zadany poprzez równanie: ø Æ()= * + cos(=) ø + ù sin(=), gdzie 0,2[. Wektor estymowanych parametrów o długości =2ú+1 jest postaci Æ= *,,, ø,ù,,ù ø. Jeżeli plan optymalny skupiony jest w m punktach, > 2ú+1, to punkty te muszą spełniać warunek: J = AØ q,==1,2,,> Punkt przyjmuje się dowolnie. Wszystkie punkty mają tą samą wagę równą 1 ] >. Taki plan jest również D-optymalny dla każdej funkcji postaci (5.5.4) z úˆ ú liczbą harmonicznych. Jeżeli model trygonometryczny dany jest równaniem: ø Æ()= * + cos(=), gdzie 0,[, to plan D-optymalny jest skupiony w =ú+1 punktach wyznaczanych ze wzoru: =arccos( ),==1,2,,, gdzie jest rozwiązaniem równania 1 A ) wó û (f) =0, \ ø () dany jest równaniem (5.5.3). Tak samo jak poprzednio, wszystkie wagi są równe 1 ]. Możliwe jest również wyznaczenie planu D-optymalnego dla modelu liniowego, zarówno względem zmiennych jak i parametrów, rozpiętego na hipersześcianie. Model taki dany jest wzorem: wf Æ()= * + ¹ G G G, gdzie 1,1 ¹. Plan D-optymalny stanowi pełne doświadczenie czynnikowe na dwóch poziomach, który każdemu punktowi przypisuje jednakową wagę równą 1 ] 2 ¹. 57

58 Numeryczne wyznaczanie wag planu optymalnego W wielu przypadkach analityczne wyznaczenie wag punktów nośnika planu optymalnego jest zbyt trudne lub nawet niemożliwe. Wówczas należy skorzystać z numerycznej metody optymalizacji wag. Poniżej przedstawiono metodę pozwalającą wyznaczyć przybliżone wartości optymalne wag dla danego planu eksperymentu. Niech obszar X zawiera skończoną liczbę d punków, w których możliwe jest przeprowadzenie eksperymentu, A,, w,ý 1. Dowolny plan eksperymentu ±() jest zatem jednoznacznie określony przez wagi punktów p 0,==1,2,,ý w spełniające warunek p =1. Niech dane będzie pewne odwzorowanie, które planowi przyporządkowuje plan ˆ= ( ) poprzez modyfikację jego wag zgodnie ze wzorem: p ˆ=p þo,à P,==1,2,,ý Zgodnie z twierdzeniem 5.2 þo, À P =1,==1,2,,ý, zatem plan optymalny jest punktem stałym odwzorowania. Formalnie algorytm można przedstawić w następujących krokach: Krok 1: Ustalić żądaną względną dokładność obliczeń >0, wybrać plan startowy (*) o nieosobliwej macierzy informacyjnej i taki, że wagi wszystkich punktów ze skończonego zbioru są dodatnie p >0,==1,2,,ý. Zainicjalizować licznik iteracji E=0. Krok 2: Wyznaczyć plan (GJ), modyfikując wagi planu (G) według wzoru (GJ) (G) þo p =p (ö), À P,==1,2,,ý ) Krok 3: Jeżeli warunek þo ö, À P <1+,==1,2,,ý ) nie jest spełniony, to zwiększyć k o jeden i przejść do kroku 2. W przeciwnym przypadku, zatrzymać obliczenia i uznać G za plan D-optymalny. 58

59 Plany otrzymywane w kolejnych iteracjach, z coraz większą dokładności przybliżają plan D-optymalny: lim G Z Édet{ÄO (G) PƒÊ=ýzÜOÄ( )P ) Numeryczne wyznaczanie planu optymalnego Metoda przedstawiona powyżej umożliwia wyznaczenie jedynie wag planu optymalnego. Punkty nośnika planu są z góry ustalone i nie podlegają optymalizacji. Przedstawiony poniżej algorytm Wynna-Fedorova wyznacza zarówno punkty nośnika planu, jak i ich wagi. Algorytm ma charakter iteracyjny i polega na poprawianiu planu początkowego poprzez dodawanie do zbioru nośników planu nowych punktów z odpowiednio dobraną wagą oraz na zmianie wag pozostałych punktów. Procedura składa się z następujących kroków: Krok 1: Ustalić żądaną względną dokładność obliczeń >0, wybrać plan startowy (*) o nieosobliwej macierzy informacyjnej. Zainicjalizować licznik iteracji E=0. Krok 2: Obliczyć wariancję oceny parametrów modelu êo (G),P i znaleźć punkt µ (G) dla którego osiągane jest max æ êo (G),P. Krok 3: Jeżeli êo (G),µ (G) P ] <1+, to (G) uznaje się za plan optymalny i zakańcza się obliczenia. W przeciwnym przypadku wykonywany jest Krok 4. Krok 4: z następujących wzorów: Obliczyć wagę µ (G) przypisywaną punktowi µ (G) zgodnie z jednym µ (G) = GJ, ) µ G þo ö,µ (ö) P OþO (ö),µ (ö) PP ) Krok 5: Obliczyć kolejne przybliżenie planu optymalnego zgodnie ze wzorem: GJ O1 µ (G) P (G) + µ (G) L µ (ö), ) gdzie L µ ö jest planem skupionym w jednym punkcie µ G, któremu przypisuje się wagę równą 1. Zwiększyć wartość licznika iteracji k o jeden i przejść do kroku 2. 59

60 Wyznaczanie kombinacji wypukłej planów (G) oraz L µ (ö) wykonywane w kroku 5 odbywa się zgodnie z definicją 5.3. Najbardziej czasochłonnym krokiem przedstawionego algorytmu jest krok drugi, w którym konieczne jest wyznaczenie punktu µ (G), dla którego funkcja ê osiąga maksimum. Trudności w znalezieniu µ (G) wynikają głównie z wielomodalności funkcji ê. Z tego powodu algorytm Wynna-Fedorova stosowany jest dla funkcji o małej liczbie zmiennych. W kroku czwartym przedstawiono dwa sposoby wyznaczania wagi punktu dołączanego do planu. Zastosowanie dowolnego ciągu 0< µ (G) <1, który spełnia warunki: Z G * µ (G) Z =, O µ (G) P A G * <, ) zapewnia zbieżność procedury. Wykorzystanie równania (5.5.14) ma charakter optymalności lokalnej, powoduje bowiem maksymalizowanie wyrażenia detéä{1 ) (G) + L µ (ö)ƒê ) względem. Wzór (5.5.13) stosowany jest najczęściej w momencie, gdy błędy numeryczne sprawiają, że µ G 0,1) Wielowymiarowe plany eksperymentu Przedstawione do tej pory metody planowania eksperymentów ograniczają się do problemów o niewielkiej liczbie zmiennych. Jest to spowodowane znacznym wzrostem nakładów obliczeniowych wraz ze wzrostem wymiaru problemu. Z tego względu stosowane są tzw. plany produktowe, które tworzone są na podstawie kilku planów eksperymentów niskich rzędów. Przed zdefiniowaniem planów produktowych oraz podaniem warunków ich optymalności należy omówić struktury modeli wielowymiarowych Struktury modeli wielowymiarowych Modele wielowymiarowe dzielą się na tzw. modele addytywne i modele multiplikatywne. Rozróżnienie pomiędzy tymi modelami dokonywana jest na podstawie 60

61 występowania składników będących iloczynami funkcji, których argumentami są różne zestawy wielkości wejściowych. W zapisie tych modeli pomocne są dwa pojęcia: suma prosta wektorów oraz iloczyn Kroneckera. Poniżej przedstawiono ich definicje oraz podstawowe własności. Definicja 5.9. Niech R w oraz Ç R w Ó będą wektorami kolumnowymi. Sumą prostą wektorów i Ç, oznaczaną jako Ç, nazywa się wektor kolumnowy,ç o rozmiarze ý +ý A. Oczywistym jest, że suma prosta wektorów nie jest przemienna Ç Ç, natomiast jest to działanie łączne ( Ç) ä= (Ç ä). Niech dane będą macierze = oraz = odpowiednio o wymiarach dim()= >,dim()= >. Definicja 5.10 (Iloczyn Kroneckera) Iloczyn, nazywany też produktem Kroneckera macierzy i oznacza się. Macierz = o wymiarach dim()= >, gdzie =,> => > o postaci: A = A AA A q Aq (5.6.1) q nazywana jest lewostronnym iloczynem Kroneckera macierzy,. Definicję 5.12 można stosować również w przypadku wektorów kolumnowych. Niech, A,, oraz Ç=, A,,. Iloczynem Kroneckera wektorów i Ç będzie wektor ä zdefiniowany następującym równaniem: ä= Ç= Ç, A Ç,, Ç. (5.6.2) Poniżej przedstawiono najważniejsze własności iloczynu Kroneckera (założono, że wszystkie macierze mają takie wymiary, aby działania miały sens):,, Y Y, Y Y,

62 ( ) =,, n n n, n n O n n PO P O P. (5.6.10) Zakładając dodatkowo, że macierze są kwadratowe o wymiarach dim,dim()= : tr( )=tr() tr(), (5.6.11) det OdetP OdetP. (5.6.12) Oznaczając przez s i-tą wartość własną macierzy, a przez ¾ odpowiadający jej prawostronny wektor własny, wówczas wszystkie wartości i wektory własne macierzy mają postać: s s s,==1,2,,,@=1,2,,, ¾ =¾ ¾,= =1,2,,,@=1,2,, Dodatkowo zakładając, że macierze A i B są nieosobliwe: = Modele addytywne Modele addytywne należą do klasy najczęściej używanych modeli. Wśród nich można wyróżnić modele w pełni addytywne oraz modele częściowo addytywne. Modele w pełni addytywne zapisywane są za pomocą równania: ¹ Æ= * + G G G G, gdzie = *,,, oznacza wektor nieznanych parametrów modelu, G G,E = 1,2,, są znanymi funkcjami rozpinającymi model. Cechą szczególną modeli addytywnych jest to, że poszczególne funkcje G zależą jedynie od pojedynczych wartości wejściowych G. Dzięki temu, przy zmianach tylko jednej wielkości 62

63 wejściowej G (inne pozostają stałe) zależności pomiędzy Æ a G przyjmuje postać Æ()=+ G G( G ), gdzie c oznacza pewną stałą. Inną konsekwencją tego faktu jest równość =Û+1, pod warunkiem, że w modelu występuje wyraz wolny *. Wyraz wolny najczęściej uwzględniany jest w wektorze funkcji rozpinających model jako funkcja * 1, dzięki czemu równanie opisujące model (5.6.16) przyjmuje postać: Æ()= m(), gdzie m=1,,, ¹ ¹. Modele częściowo addytywne to modele, które są w pełni addytywne względem dowolnej liczby grup zmiennych wejściowych. Niech dane będą dwa modele w pełni addytywne opisane równaniami: Æ = m, (5.6.18) Æ A = m. (5.6.19) Model częściowo addytywny złożony z (5.6.18) oraz (5.6.19) przyjmuje postać: Æ=Æ +Æ A = m + m = m, gdzie =,, =,, m= {m ƒ,{m ƒ. Uwzględniając definicję 5.11 w równaniu (5.6.20) otrzymuje się model częściowo addytywny zapisany w formie: Æ= {m m ƒ, gdzie =, =. Model regresji liniowej modelu opisanego równaniem (5.6.21) wygląda następująco: { A,m m,t A, ƒ, gdzie t A, =t A t A A. 63

64 Należy podkreślić, że wyraz wolny w równaniu (5.6.21) powinien być uwzględniony tylko jednym w wektorze zawierającym funkcje rozpinające model. W przeciwnym przypadku funkcje rozpinające model regresji (5.6.22) m ( ) m ( ) nie będą liniowo niezależne na zbiorze A. Modele multiplikatywne Modele multiplikatywne charakteryzują się tym, że występują w nich składniki zależne od iloczynów zmiennych wejściowych, czyli występują interakcje pomiędzy czynnikami. Przy czym, aby model z interakcjami był modelem multiplikatywnym, muszą w nim występować wszystkie możliwe interakcje. Podobnie jak w przypadku modeli addytywnych, modele multiplikatywne można podzielić na modele częściowo i w pełni multiplikatywne. Niech =. Model częściowo multiplikatywny, to model opisany następującą zależnością: Æ()= {m ( ) m ( )ƒ, (5.6.23) gdzie długość wektora nieznanych parametrów jest równa dim dim{m ƒ dim{m ƒ. Model jest w pełni multiplikatywny, jeżeli jest to model częściowo multiplikatywny oraz jest możliwe przedstawienie wszystkich czynników tak, aby każdy z nich zależał od pojedynczej zmiennej niezależnej. Zapisuje się go w postaci: Æ ¹ m G G G, (5.6.24) gdzie, A,, ¹ jest wektorem wszystkich wielkości wejściowych, m G ( G ) są wektorami kolumnowymi funkcji rozpinających model zależnych jedynie od k-tej wielkości wejściowej. Przy oznaczeniu przez G =dim{m G ( G )ƒ, liczba składników ¹ modelu wynosi =dim( )= G G. W praktyce często stosowane są połączenia obu typów modeli: addytywnych i multiplikatywnych. Określa się je mianem modeli mieszanych i zapisuje w postaci np.: Æ()= {m ( ) m ( ) m ( ) m ( )ƒ, (5.6.25) 64

65 gdzie =( ),( ),( ),( ) jest wektorem zmiennych wejściowych. Długość wektora estymowanych parametrów wynosi dim( )=dim{m ( )ƒ dim{m ( )ƒ+dim{m ( )ƒ dim{m ( )ƒ Plany produktowe Przedstawione zostaną dwa rodzaje planów produktowych: dyskretne oraz ciągłe. Dyskretne plany produktowe Najpowszechniej stosowana regularna struktura danych dyskretnych do dane pochodzące z węzłów siatki. Niech =, A R A, a wartości jakie przyjmują zmienne i A należą odpowiednio do zbiorów =, A,, q oraz A = A, A A,, A qa. Przy takich założeniach, obserwacji można dokonywać tylko w punktach O, A P = A, dla ==1,,>1,@=1,,>2. Liczba pomiarów w danym punkcie siatki O, A P wynosi A,i=1,,m1,j=1,,m2, ) gdzie oznacza liczbę pomiarów we wszystkich punktach O, A P dla stałej wartości A i zmiennej przyjmującej wszystkie wartości ze zbioru A. Całkowita liczba pomiarów jest równa q qa = ) W definicji planu produktowego zamiast krotności pomiarów stosuje się pojęcie względnych częstości wykonywania pomiarów, która definiowana jest następująco: p À,==1,,>1,@=1,,> ) Częstości te można również wyrazić jako: p p p A,==1,,>1,@=1,,>2, ) gdzie p À, p A = Ó Ó, = q, A qa A = ) 65

66 Ponadto, prawdziwe są następujące zależności: q qa q p =1, p =1, p =1. (5.6.31) Znajomość poszczególnych krotności p oraz sumarycznej liczby pomiarów jest wystarczające do wyznaczenia krotności pomiarów we wszystkich węzłach siatki. Definicja 5.11 Niech dane będą dwa następujące zestawy wielkości: zbiór, wraz z zestawem częstości p 0,==1,,>1 oraz A wraz z p A 0,@=1,,>2, przy czym częstości te spełniają warunki (5.6.31). Ponadto, niech dana będzie łączna liczba pomiarów o postaci = A, przy czym liczby naturalne są tak dobrane, że wszystkie = p oraz A = A p A również są liczbami naturalnymi. Dyskretnym planem produktowym nazywa się zestaw składający się z liczby moniaków n, zbioru A węzłów siatki pomiarowej i częstości p =p p A,==1,,>1,@=1,,>2. Ciągłe plany produktowe Ciągłe plany produktowe są pewnym uogólnieniem planów dyskretnych, podobnym do tego, które stosuje się przy przejściu pomiędzy planami unormowanymi (definicje 5.1) a ciągłymi (definicja 5.2). Uogólnienie to polega na rezygnacji z warunku, że wszystkie wartości oraz A w definicji 5.11 są liczbami naturalnymi. Definicja 5.12 Niech dane będą dwa plany ciągłe o skończonych nośnikach = A q p p A p, A = A A A A qa A A A. (5.6.32) q p p A p qa Punkty nośników tych planów są elementami zbiorów R oraz A R, odpowiednio. Produktem planów oraz A nazywa się plan skupiony w >1 >2 punktach skonstruowany następująco: punkty O, A P stanowią nośnik planu, a odpowiadające im wagi p mają postać p =p p A,==1,,>1,@=1,,>2. Ciągły plan produktowy skupiony w skończonej liczbie punktów, powstały jako produkt planów i A, oznacza się przez A. Poniżej przedstawiono kilka własności ciągłych planów produktowych, które pokazują, że można je traktować jako plany eksperymentu. Nośnikiem planu A jest podzbiór zbioru A. Nich `=p,p A,,p q i `=p A,p A A,,p A q oznaczają odpowiednio wektory wag planów ±( ) oraz A ±( A ), gdzie, A R. Wagi p =p p A planu qa 66

67 A sumują się do 1. Ponadto, macierz wag p tego planu można obliczyć jako iloczyn Kroneckera wektorów wag ` (`). Jeżeli ±( ), A ±( A ) to A ±( A ). Zbiór wszystkich planów produktowych na zbiorze będącym iloczynem kartezjańskim zbiorów oraz A oznacza się ± ( A ) i definiuje jako: ± ( A )= A : ±( ), A ±( A ) Optymalność planów produktowych W wielu przypadkach plan optymalny dla problemu wielowymiarowego można otrzymać analitycznie, poprzez obliczenie produktu planów optymalnych dla modeli o mniejszej liczbie zmiennych niezależnych. Poniżej przedstawiono sposoby wyznaczania planów optymalnych dla klasy modeli multiplikatywnych, addytywnych oraz mieszanych. Optymalność planów produktowych w modelach multiplikatywnych Niech dany będzie model częściowo multiplikatywny postaci: Æ {m m ƒ, 5.7.1) gdzie, A. Definicja 5.13 Modelami częściowymi dla (5.7.1) nazywa się funkcje ( ) m ( ) i ( ) m ( ), określone odpowiednio na oraz A. W modelach tych R Õ {m O Pƒ oraz R Õ {m O Pƒ są kolumnowymi wektorami stałych parametrów. Każdy model częściowy ( ) m ( ) wyraża zależność wyjścia od wielkości wejściowych przy ustalonych wartościach pozostałych wejść, co dla modelu (5.7.1) oznacza ( ) m ( )= {m ( ) m O - Pƒ, 5.7.2) gdzie,( ), natomiast - jest stałym wektorem. Algorytm wyznaczania planu D-optymalnego dla modelu (5.7.1) składa się z następujących kroków: 67

68 Krok 1: Znaleźć plan D-optymalny ( ) ±( ) dla modelu częściowego ( ) m ( ). W tym celu należy rozwiązać zadanie: max àoæ P Édet{Ä ( )ƒê=det{ä (( ) )ƒ, gdzie dla każdego planu ± A q p p A p q macierz informacyjna dana jest wzorem Ä q p m O P {m O Pƒ Krok 2: Znaleźć plan D-optymalny A ± A dla modelu częściowego m. W tym celu należy rozwiązać zadanie analogiczne do sformułowanego w Kroku 1. Krok 3: Obliczyć D-optymalny plan produktowy A. Macierz informacyjna D-optymalnego planu produktowego Ä jest macierzą nieosobliwą równą Ä Ä Ä A Nieosobliwość macierzy (5.7.6) wynika z własności (5.6.12). W przypadku wyznaczania planu D-optymalnego dla modelu multiplikatywnego składającego się z większej liczby modeli częściowych, krok 1 powyższego algorytmu wykonywany jest więcej razy. Skuteczność algorytmu wyznaczającego D-optymalny plan produktowy można wykazać wykorzystując twierdzenie Kiefera i Wolfowitza (założono, że wariancja zakłóceń jest stała w całym obszarze planowania). Dla planów D-optymalnych oraz A zachodzi: sup æ {m ƒ {Ä ƒ m, sup æ Ó{m ƒ {Ä A ƒ m A

69 Uwzględniając (5.7.6), można zapisać: sup Om ()Ä ( )m()p= æ æ Ó sup æ {m ƒ {Ä ƒ m sup æ Ó{m ƒ {Ä A ƒ m A. Zależność dowodzi, że plan A jest planem D-optymalnym. Optymalność planów produktowych w modelach addytywnych i mieszanych Wyznaczanie optymalnych planów produktowych dla modeli addytywnych i mieszanych jest nieznacznie trudniejsze niż w przypadku modeli multiplikatywnych. Z tego względu wprowadza się funkcję ΦOÄ, )P oznaczającą kryterium planowania eksperymentu dla funkcji regresji o r parametrach. Kryterium Φ powinno spełniać następujące wymagania: 1. Φ jest funkcją wklęsłą i różniczkowalną w zbiorze wszystkich nieosobliwych osiągalnych macierzy informacyjnych i taką, że w rozważanym zadaniu planowania istnieje rozwiązanie o nieosobliwej macierzy informacyjnej. 2. Niech (Ä, ) oznacza macierz o elementach postaci (Ä, ) = Âî(Ä, ) Âq À,=,@=1,2,,, ) gdzie > oznaczają elementy macierzy Ä. Od macierzy wymagane jest, by dla dowolnych nieosobliwych Ä oraz Ä zachodziło Ä Ä, A )=(Ä, ) (Ä, A ), ) gdzie dimä,dim(ä )= A A. 3. Dla dowolnej nieosobliwej i osiągalnej w danym problemie planowania macierzy informacyjnej Ä, macierz (Ä, ) jest nieujemnie określona. W celu uproszczenia zapisu formalnego wygodnie jest stosować symbol sumy prostej macierzy. 69

70 Definicja 5.14 Niech Ä i Ä będą macierzami kwadratowymi o wymiarach odpowiednio oraz A A. Sumą prostą Ä Ä nazywa się macierz blokową postaci: Ä - - Ä ) Macierz Ä Ä jest macierzą kwadratową o Y A wierszach i kolumnach. 0 w macierzy (5.7.12) oznaczają macierze złożone z elementów zerowych, przy czym ten sam symbol stosowany jest do macierzy o różnych liczbach wierszy i kolumn. Niech dany będzie model częściowo addytywny Æ {m m ƒ, gdzie =,, =,, dim{m ƒ=, dim{m ƒ= A,, A. Modele częściowe modelu (5.8.13) są postaci m oraz m, a odpowiadające im plany eksperymentu i macierze informacyjne oznaczone są odpowiednio przez, A oraz Ä,Ä. Prawdziwe jest następujące twierdzenie Twierdzenie 5.3 Niech spełnione będą warunki 1 3, a ponadto, macierz pochodnych wskaźnika jakości F spełnia warunek: Ä Ä, + A =Ä, Ä, A dla dowolnych nieosobliwych macierzy Ä i Ä o odpowiednio i A wierszach i kolumnach. Niech ± i A ± A będą planami!-optymalnymi dla modeli częściowych m i m. Dodatkowo, dla planów tych zachodzi Ä A =Ä Ä A a macierz Ä A jest nieosobliwa. Przy tych założeniach plan A jest!-optymalny w estymacji parametrów modelu (5.7.13). Korzystając z twierdzenia 5.3, należy pamiętać o sprawdzeniu liniowej niezależności m m na A, sprawdzeniu nieosobliwości macierzy Ä A oraz każdorazowym sprawdzeniu warunku (5.7.15). W tym ostatnim pomocne jest korzystanie z następującego warunku. 70

71 Warunkiem dostatecznym dla zachodzenia (5.7.15) jest symetria planu ( ) względem m ( ) lub symetria ( A ) względem m ( ). Definicja 5.15 Plan ±() nazywa się symetrycznym względem m() jeżeli é m() (g) æ =0. Jako ostatnie przedstawione zostanie twierdzenie dotyczące optymalności planów produktowych dla modeli mieszanych. Niech dany będzie model postaci Æ()= É{m ( ) m ( )ƒ m ( )Ê ) Funkcje m i m zdefiniowane są identycznie, jak to miało miejsce w przypadku modeli addytywnych. Ponadto, takie same wymagania są nałożone na funkcję m,. Plany optymalne dla modeli częściowych są oznaczone odpowiednio przez ( ),( A ) oraz ( ). Twierdzenie 5.4 Niech spełnione będą założenia z twierdzenia 5.3 odnoszące się do wskaźnika optymalności planowania. Ponadto, niech przynajmniej jeden z planów ( ) lub ( A ) jest symetryczny względem m ( ) lub m ( ), odpowiednio. Wówczas plan ( ) ( A ) ( ) jest!-optymalny dla estymacji parametrów modelu (5.8.16) w obszarze A. 71

72 6. Zmodyfikowana metoda optymalizacji aproksymacyjnej Metoda optymalizacji aproksymacyjnej należy do grupy metod, które umożliwiają skrócenie czasu obliczeń optymalizacyjnych poprzez zmniejszenie liczby koniecznych wywołań funkcji celu. Zasada jej działania opiera się na zastąpieniu rzeczywistej, nieznanej funkcji celu $ przez przyjętą funkcję aproksymującą ;. Współczynniki funkcji ; wyznaczane są na podstawie zbioru punktów generowanych na początku algorytmu. Poszukiwanie optimum funkcji ; powoduje, że ocena kolejnych przybliżeń rozwiązania optymalnego nie jest wykonywana przy użyciu modelu analizowanego procesu, lecz analitycznej funkcji. Symulacja numeryczna wykonywana jest tylko dla punktu, w którym funkcja ; przyjmuje minimum. W sytuacji, gdy model zbudowany jest w oparciu o czasochłonne symulacje komputerowe, dochodzi do znacznego obniżenia czasu obliczeń. Podobnie jak metody niederministyczne, może być stosowana do optymalizacji nieliniowych, nieciągłych i wielomodalnych funkcji celu [34, 71, 79]. W niniejszym rozdziale przedstawiono algorytm metody optymalizacji aproksymacyjnej, przykład pokazujący jej wady i opracowane modyfikacje mające na celu ich niwelacje Klasyczna wersja metody optymalizacji aproksymacyjnej Algorytm metody optymalizacji aproksymacyjnej (ang. Approximation Based Oprimization ABO) składa się z następujących kroków. Algorytm metody ABO: Krok 0: Ustal licznik iteracji ==0. Krok 1: Wyznacz początkowy zbiór punktów: (*) =Ï, A,, q : 1 f,==1,,>ñ. (6.1.1) gdzie m jest liczbą punktów, 1 f zbiorem rozwiązań dopuszczalnych. Krok 2: Oblicz wartości funkcji celu we wszystkich punktach zbioru (*) : ' (*) =Ï =$O P,==1,,>Ñ. (6.1.2) 72

73 Krok 3: Na podstawie zbioru Ï ( ),' ( ) Ñ wyznacz współczynniki funkcji ; minimalizując kwadratowy błąd aproksymacji: Q= {;O P $O Pƒ A q. (6.1.3) Krok 4: Stosując dowolną metodę optymalizacji wyznacz minimum funkcji ;: : 1 f ; ;. (6.1.4) Krok 5: Oblicz wartość funkcji celu w punkcie : $. (6.1.5) Krok 6: Powiększ zbiór punktów Ï J,' ( J) Ñ=Ï ( ),' ( ) Ñ oraz zwiększ >=>+1. Krok 7: Jeżeli spełniony jest warunek stopu, zakończ obliczenia i przyjmij = : G. (6.1.6) W przeciwnym przypadku zwiększ licznik iteracji = =Y1 i przejdź do kroku 3. Sposoby wyboru planu eksperymentu pozwalającego na efektywne określenie początkowego zbioru punktów w kroku 1 zostały opisane w rozdziale piątym. Przy czym należy tu wspomnieć, że w przypadku metody optymalizacji aproksymacyjnej celowe jest wygenerowanie dużej liczby punktów początkowych. W kroku 2. wykonywane są symulacje numeryczne (za pomocą modelu optymalizowanego procesu) w celu wyznaczenia wartości funkcji celu we wszystkich punktach ze zbioru (*). W kroku 3 współczynniki funkcji ; wyznaczane są poprzez rozwiązanie układu równań liniowych [16]: w# w = ) gdzie: Q jest minimalizowanym błędem aproksymacji danym wzorem (6.1.3), jest wektorem szukanych współczynników funkcji aproksymującej ;. 73

74 W kroku 4, do minimalizacji funkcji ;(), można zastosować dowolną metodę optymalizacji. Pewne wskazówki dotyczące jej wyboru zostały przedstawione w rozdziale 4. W wyznaczonym punkcie wykonywana jest symulacja numeryczna, a nowy punkt (, ) dodawany jest do zbioru Ï ( ),' ( ) Ñ. Kryteria stopu polegające na testowaniu zbieżności kolejnych rozwiązań (równania 1.7 oraz 1.8) nie są odpowiednie w przypadku tej metody, ponieważ, ze względu na sposób poszukiwania rozwiązania optymalnego, przez kilka iteracji może nie nastąpić żadna poprawa rozwiązania. Jako kryterium stopu stosuje się ograniczenie maksymalnej liczby wywołań funkcji celu oraz otrzymanie rozwiązania, dla którego wartość funkcji celu jest odpowiednio niska (poniżej przyjętej wartości # ). Schemat metody optymalizacji aproksymacyjnej przedstawiono na rysunku

75 Rysunek 6.1. Schemat blokowy metody optymalizacji aproksymacyjnej. Poniżej przedstawiono przykład zastosowania metody, korzystając z testowej funkcji jednej zmiennej danej wzorem [15]: $()=(6 2) A Û=(12 4), 0, ) Minimum funkcji (6.1.8) znajduje się w punkcie $n% 0,7573, dla którego wartość funkcji wynosi $( $n% ) 6,0207 (rysunek 6.2). 75

76 Rysunek 6.2. Wykres funkcji (6.1.8) z zaznaczonym rozwiązaniem optymalnym. Zbiór Ï (*),' (*) Ñ składał się z 10-ciu równomiernie rozmieszczonych punktów [37]. Wielomiany stopni od 2-go do 9-go oraz funkcja sklejana 3-go stopnia zostały wykorzystane jako funkcje aproksymujące ;. Jako kryterium stopu przyjęto przekroczenie 1000 wywołań funkcji celu lub otrzymanie rozwiązania, którego wartość jest nie większa niż # = 6,02. Otrzymane wyniki optymalizacji przedstawione zostały na rysunku 6.3 oraz w tabeli 6.1. Rysunek 6.3. Wyniki optymalizacji funkcji (6.1.8): kolorem czerwonym zaznaczono funkcję $, niebieskim funkcję ; w ostatniej iteracji, czarnym znalezione rozwiązanie optymalne. Przedstawiony przykład pokazuje, że metoda optymalizacji aproksymacyjnej jest skuteczna tylko przy zastosowaniu wielomianu wysokiego stopnia lub funkcji sklejanych. Nie stanowi to problemu przy optymalizacji funkcji jednej zmiennej, jednak 76

77 przy poszukiwaniu minimum w przestrzeni wielowymiarowej wyznaczenie współczynników funkcji aproksymującej może stanowić poważną trudność. Tabela 6.1. Wyniki optymalizacji funkcji celu (6.1.8). Stopień wielomianu Liczba wywołań funkcji celu 2 0,3988 0, ,5850 0, ,7550 6, ,7215 5, ,7336 5, ,7593 6, ,7658 5, ,7579 6, Funkcja sklejana 0,7572 6, Przykład zastosowania opisanej metody do rozwiązania rzeczywistego problemu można znaleźć w [34]. Przedstawiono tam optymalizację kształtu matrycy dla kucia osiowosymetrycznego. Przyjęta funkcja celu była funkcją dwóch zmiennych (opisujących kształt konturu matrycy) i uwzględniała wielkość ziarna austenitu w gotowej odkuwce przy jednoczesnym zapewnieniu jednorodności mikrostruktury. Jako funkcję aproksymującą zastosowano funkcje sklejane trzeciego stopnia. Niestety, Autor nie podaje żadnych informacji na temat liczby punktów tworzących zbiór początkowy Ï (*),' (*) Ñ ani liczby wykonanych iteracji wykonanych w czasie optymalizacji. Przedstawione wady metody stały się motywacją do opracowania modyfikacji, które przedstawiono w rozdziale Zmodyfikowana metoda optymalizacji aproksymacyjnej Osiągnięcie głównego celu pracy, czyli zmniejszenie nakładów obliczeniowych w optymalizacji procesów metalurgicznych, jest możliwe dzięki wprowadzeniu do metody ABO szeregu ulepszeń. Główne modyfikacje polegają na: opracowaniu dedykowanego algorytmu generowania zbioru początkowego opartego o teorię planowania eksperymentu, 77

78 wyborze postaci funkcji aproksymacyjnej ;, wprowadzeniu wag we wszystkich punktach ze zbioru ( ) określających ich udział w wyznaczaniu współczynników funkcji ;, opracowaniu algorytmu generowania wag dla zbioru początkowego ( ), opracowaniu algorytmu zmian wartości wag podczas optymalizacji, dodaniu drugiej, lokalnej aproksymacji funkcji celu $() na podstawie punktów z sąsiedztwa Š aktualnego rozwiązania. Na początku rozdziału piątego dowiedziono, że zastosowanie odpowiedniego planu eksperymentu w znaczący sposób wpływa na dokładność modelu. W przypadku metody MABO, dąży się, aby dokładność aproksymacji rosła wraz ze zbliżaniem się do minimum funkcji $. Jako funkcję aproksymującą ;, wybrano funkcję kwadratową opisaną wzorem: ;()= +Ç ) Wybór kwadratowej funkcji aproksymującej podyktowany jest głównie dwoma aspektami. Po pierwsze, wyznaczenie jej współczynników jest zadaniem prostym, nawet w przypadku wielowymiarowym. Po drugie, nie ma konieczności wykorzystywania żadnej dodatkowej metody optymalizacji, ponieważ minimum funkcji (6.2.1) można wyznaczyć analitycznie. Zastosowanie kwadratowej funkcji aproksymującej pociąga za sobą konieczność wprowadzenia modyfikacji, które przyspieszą zbieżności metody. Zostało to osiągnięte dzięki wprowadzeniu wag Œ we wszystkich punktach. Wagi określają procentowy udział każdego z punktów ze zbioru Ï,' ( ) Ñ w wyznaczaniu parametrów funkcji aproksymacyjnej. Dzięki zmianom wag, możliwe jest wpływanie na kształt funkcji aproksymującej. Pokazuje to poniższy przykład aproksymacji funkcji danej wzorem: $()= A +ÚÛ([) (6.2.2) gdzie 2,2. Rysunek 6.4 przedstawia wykresy funkcji (6.2.2), punkty ze zbioru Ï ( ),' ( ) Ñ, funkcje aproksymujące oraz przyjęte wagi. 78

79 Rysunek 6.4. Wykresy funkcji (6.2.2) wraz z węzłami aproksymacji (kolor czerwony), funkcje aproksymujące (kolor niebieski) oraz wagi punktów (kolor czarny). Na rysunku 6.4a przedstawiono wynik aproksymacji dla równych wartości wag we wszystkich punktach. Funkcja ;() przyjmuje wartość minimalną dla =0. Takie rozwiązanie jest równo odległe od dwóch, równoważnych minimów globalnych funkcji (6.2.2). Jednak poprzez zmianę wag (rysunek 6.4b oraz 6.4c) można wpływać na kształt funkcji ;() i dążyć do tego, aby minima funkcji celu $() oraz funkcji aproksymacyjnej ;() się pokryły. Wprowadzenie wag punktów skutkuje koniecznością opracowania kolejnych algorytmów służących do generowania wag dla zbioru początkowego Ï (*),' (*) Ñ oraz sposobu ich zmian w trakcie działania metody. Opracowany sposób modyfikacji wag ma na celu zwiększenie udziału punktów leżących w pobliżu aktualnego minimum w wyznaczaniu współczynników funkcji aproksymacyjnej. Większe wartości wag nadawane są punktom, które mają mniejszą wartość funkcji celu i leżą bliżej aktualnego minimum. Przed przedstawieniem szczegółowego opisu opracowanej metody MABO, której schemat blokowy przedstawiono na rysunku 6.9 (strona 91), zamieszczony jest opis poszczególnych algorytmów pomocniczych. Pierwszym opracowanym algorytmem jest algorytm generowania zbioru początkowego, który rozpoczyna się od wyznaczenia planu optymalnego dla funkcji ;() za pomocą algorytmu Wynna-Fedorova. Obszar planowania przyjmuje się równy n-krotnemu iloczynowi kartezjańskiemu 1,1 1,1 1,1, natomiast 79

80 funkcję zakłóceń t() =ÚÛÜ, 0. Wartość stałej jest dowolna, ponieważ nie ma ona wpływu na postać planu optymalnego. W przypadku, gdy =1, wektor funkcji rozpinających funkcję ;() przyjmuje postać m=1,, A, a wyznaczony plan optymalny: = ] 1 3 ] 1. (6.2.3) 3 ] 3 Gdy >1 plan optymalny liczony jest poprzez n-krotny produkt planu zgodnie zależnością: =( ) ( A ),, ( ), (6.2.4) gdzie O P,==1,, przyjmuje postać identyczną jak w (6.2.3). Dla =2 plan wyznaczony zgodnie z (6.2.4) jest równy: = ( 1, 1 1] 9 1,0 1] 9 1,1 1] 9 0, 1 1] 9 0,0) 1] 9 0,1 1] 9 1, 1 1] 9 1,0 1] 9 1,1 1. (6.2.5) ] 9 Należy zauważyć, że plan (6.2.5) jest optymalny dla modelu postaci: Om m A P 1, A, A A,, A, A A, A, A A, A A A = + A A + A A ++ š + A + œ A A + A + ž A A + & A A A. (6.2.6) Przyjęta postać funkcji ; jest następująca: ; YÇ Y A Ì A A AA ÍÌ A ÍY A Ì ÍY A Y Y A Y A A Y AA A A Y Y A A Y. (6.2.7) W (6.2.7) nie występują składniki œ A A, ž A A, & A A A z równania (6.2.6). Niemniej jednak, zgodnie z [28] punkty nośnika planów optymalnych dla (6.2.6) i (6.2.7) są takie same. Różnica występuje tylko w wagach poszczególnych punktów, które generowane są później według wybranego algorytmu wyznaczania wag początkowych. Generowanie zbioru początkowego podzielone jest na etapy. Liczba etapów z może być zmieniana w zależności od postaci funkcji celu. W każdym etapie do zbioru początkowego Ï (*),' (*) Ñ dodawane są kolejne punkty. Na początku każdego etapu 80

81 generowany jest plan eksperymentu zgodnie ze wzorem (6.2.4). Następnie współrzędne wszystkich punktów nośnika planu przemnażane są przez współczynnik skalowania etapu s i przesuwane o wektor '. W pierwszym etapie współczynnik skalowania jest zawsze równy s =1, w kolejnych s (0,1) Wektor przesunięcia w pierwszym etapie jest zawsze równy ' =-. W celu obliczenia wektora przesunięcia w etapach od 2-go do e-tego, wyznaczana jest aproksymacja funkcji celu. Funkcja aproksymacyjna przyjmuje postać (6.2.1) i jest wyznaczana na podstawie wszystkich punktów wygenerowanych w poprzednich etapach planowania. Początek wektora ' znajduje się w punkcie -, koniec w punkcie, w którym funkcja aproksymacyjna przyjmuje najmniejszą wartość. Jeżeli funkcja ta jest wklęsła, wektor ' przyjmuje wartość -. Jeżeli w wyniku przesunięcia, punkt wykracza poza obszar planowania, jest on zatrzymywany na jego granicy obszaru. Przykład czteroetapowego planowania eksperymentu ze współczynnikami skalowania równymi (=1;0,75;0,5;0,25 dla funkcji dwuwymiarowej testowej Rastrigina w przedziale 0,2;1 0,2;1 przedstawiono na rysunku 6.5. Rysunek 6.5. Kolejne etapy generowania zbioru początkowego dla funkcji testowej Rastrigina. 81

82 Na rysunku 6.5a przedstawiono punkty wygenerowane w pierwszym etapie (kolor czarny), czyli dla s =0,' =-. Kolorem czerwonym zaznaczono minimum funkcji aproksymacyjnej wyznaczonej na podstawie pierwszych 9-ciu punktów tworzących zbiór (*). Minimum znajduje się w punkcie o współrzędnych (0,4824;0,4824), który po przeskalowaniu do przedziału 1;1 1;1 definiuje wektor ' A = 0,1374;0,1374 wykorzystany w drugim etapie planowania eksperymentu. Współczynnik skalowania w drugim etapie wynosi s A =0,75, zatem zbiór punktów (*) powiększa się o punkty zaznaczone na rysunku 6.5b czarnymi kółkami. Ponownie wyznaczana jest funkcja aproksymacyjna, tym razem na podstawie 18-stu punktów. Jej minimum znajduje się w punkcie (0,2558;0,2558) (czerwone kółko), co skutkuje wartością wektora ' = 0,2403; 0,2403. Wartość ' w połączeniu ze współczynnikiem skalowania s =0,5 sprawia, że zbiór (*) powiększany jest o kolejne 9 punktów zaznaczonych na rysunku 6.5c czarnymi plusami. Po raz kolejny wyznaczana jest funkcja aproksymacyjna, której minimum znajduje się w punkcie (0,0324;0,0324). Na rysunku 6.5d przedstawiono wynik ostatniego etapu planowania eksperymentu. Zbiór (*) zostaje powiększony o punkty zaznaczone czarnymi kwadratami powstałymi poprzez przemnożenie planu powstałego na podstawie (6.2.14) przez współczynnik skalowania s š =0,25 i przesunięte o wektor ' š = 0,6126; 0,6126. Ostatecznie, zbiór (*) liczy 35 punktów (zamiast spodziewanych 36). Dzieje się tak dlatego, że środkowy punkt planu wygenerowanego w czwartym etapie leży bardzo blisko jednego z punktów wygenerowanych w drugim etapie. Kolejne kroki algorytmu wyznaczania zbioru początkowego są przedstawione poniżej. Algorytm 1 (generowanie zbioru początkowego): Krok 0: Ustal licznik Krok 1: Policz plan produktowy według wzoru: = A, (6.2.8) gdzie G ] 1 3 ] 1 3 ] dla E=1,,, natomiast =dim(). 3 Krok 2: Współrzędne punktów nośnika planu (6.2.8) przemnóż przez współczynnik skalowania etapu s i przesuń o wektor '. 82

83 Krok 3: Wyznacz wartości funkcji celu w punktach otrzymanych w kroku 2. oraz powiększ zbiory (*) oraz ' (*). Krok 4: zakończ obliczenia. W przeciwnym przypadku i przejdź do kroku 5. Krok 5: W oparciu o Ï (*),' (*) Ñ wyznacz funkcję aproksymacyjną postaci (6.2.1). Krok 6: Wyznacz wektor ' na podstawie minimum funkcji aproksymacyjnej wyznaczonej w kroku 5 i przejdź do kroku 2. Drugim zastosowanym algorytmem pomocniczym jest algorytm generowania wag punktów dla zbioru początkowego. Wagi te generowane są początkowe wartości wag przy zastosowaniu znanej z algorytmów genetycznych i ewolucyjnych, metody koła ruletki. Wagi są analogiczne do prawdopodobieństwo wybrania osobnika do populacji rodzicielskiej w GA i EA. Sposób ich wyznaczania opisany jest w algorytmie 2. Algorytm 2 (generowanie wag punktów początkowych): Krok 1: Przeskaluj wartości ze zbioru ' (*) do przedziału 0,1;1. Krok 2: Policz sumę wartości wszystkich elementów ze zbioru ' (*) : Û= q. (6.2.9) Krok 3: Wyznacz zbiór ) * zgodnie ze wzorem: ) * *Œ,@=1,,>+. (6.2.10) ¹ Skalowanie występujące w kroku 1 jest konieczne, ponieważ aby wyznaczyć wagi w poszczególnych punktach, wartości funkcji celu nie mogą być w nich ujemne. Przyjęty zakres sprawia, że punkt o najmniejszej wartości funkcji celu ma 10-cio krotnie większą wagę niż punkt, w którym wartość funkcji celu jest największa. Trzecim wykorzystywanym w metodzie MABO algorytmem jest algorytm wyznaczający wagę nowego punktu. Waga ta jest wyznaczana na podstawie liniowej zależności (6.2.15) pomiędzy najlepszym i najgorszym punktem ze zbioru Ï,' ( ),) ( ) Ñ. Algorytm 3 (wyznaczanie wagi nowego punktu): Krok 1: Znajdź: 83

84 q = =,, (6.2.11) Œ q =Œ =,, (6.2.12) qëf =,, (6.2.13) Œ qëf Œ =,. (6.2.14) Krok 2: Na podstawie punktów O q,œ q P oraz ( qëf,œ qëf ) wyznacz współczynniki funkcji liniowej według wzorów: Œ=,+- (6.2.15),./.ÀÙ./.ÀÙ, (6.2.16) -Œ qëf, qëf. (6.2.17) Krok 3: Wyznacz wagę Œ z zależności: Œ, Y-. (6.2.18) Krok 4: Jeżeli waga Œ <0 przyjmij Œ =0. Przykładowa zależność (6.2.18) została przedstawiona na rysunku 6.6. Rysunek 6.6. Sposób wyznaczania wagi nowego punktu. 84

85 Przyspieszenie zbieżności metody MABO jest możliwe dzięki odpowiedniemu algorytmowi zmian wartości wag podczas optymalizacji. Zmiana następuje poprzez przemnożenie wartości wag przez funkcję sklejaną pierwszego stopnia 43 określoną przez trzy węzły 0,1,2. Argumentem tej funkcji jest odległość punktu od aktualnego minimum 3 :. Przykładowy wykres funkcji 43 przedstawiono na rysunku 6.7. Rysunek 6.7. Funkcja sklejana pierwszego stopnia zmieniająca wagi. Wartości rzędnych wszystkich trzech punktów są stałe przez cały czas działania algorytmu, podobnie wartość odciętej punktu 0. Wartości odciętych punktów 1 oraz 2 są wyznaczane w każdej iteracji algorytmu MABO. Wartość odciętej punktu 1 jest zależna od numeru iteracji i wyznaczana jest ze wzoru (6.2.19). Wartości i ù to odpowiednio początkowa i końcowa wartość odciętej punktu 1. Wartość 5 odpowiada za szybkość zmniejszania się wartości odciętej punktu 1. Dzięki temu uzyskuje się jeszcze większą zbieżność metody MABO. Wykres zależności odciętej punktu 1 od numeru iteracji przedstawia rysunek

86 Rysunek 6.8. Zmiany wartości odciętej punktu 1.. Wartość odciętej punktu 2 jest równa odległości pomiędzy aktualnym minimum oraz punktem ze zbioru * położonym najdalej od niego (zależność (6.2.20)). Algorytm składa się z następujących kroków. Algorytm 4 (zmiany wag punktów): Krok 1: Wyznacz: 3 6 :ù z 7 Yù, ) gdzie = jest numerem iteracji algorytmu MABO. 3 8 = max( : ) gdzie. Krok 2: Na podstawie punktów 0, 1, 2 wyznacz współczynniki liniowej funkcji sklejanej: 4(3)=9,63+,6,dla 3 3,, Y 68,dla 3 3 6,3 8, (6.2.21) gdzie:,6 = : ;: < = ; = <,,6 = 4,,6 3,, (6.2.22) (6.2.23) 86

87 68 = : <: > = < = >, (6.2.24) Krok 3: Oblicz wagi punktów zgodnie z zależnością: (6.2.25) Œ Œ 4O3 P,@=1,,>, (6.2.26) gdzie: 3 I I. (6.2.27) Poniżej przedstawiono dokładny opis opracowanej w ramach pracy zmodyfikowanej metody optymalizacji aproksymacyjnej MABO. Algorytm metody MABO: Krok 0: Ustal licznik iteracji = 0. Krok 1: Wyznacz początkowy zbiór punktów należących do dziedziny oraz oblicz wartości funkcji celu stosując algorytm 1: (*) =Ï, A,, q : 1 f,==1,,>ñ. (6.2.28) ' (*) =Ï =$O P,==1,,>Ñ. (6.2.29) gdzie m jest liczbą punktów, 1 f zbiorem rozwiązań dopuszczalnych. Krok 2: Wyznacz wagi początkowe we wszystkich punkach zbioru * stosując algorytm 2: ) * Œ,Œ A,,Œ q. (6.2.30) Krok 3: Na podstawie zbioru Ï,' ( ),) ( ) Ñ wyznacz współczynniki funkcji ;, minimalizując kwadratowy błąd aproksymacji: q Q= Œ {;O P $O Pƒ A. (6.2.31) Krok 4: Jeżeli macierz (ze wzoru 6.2.1) jest dodatnio określona, wyznacz minimum funkcji ; z zależności: 87

88 = A Ç. (6.2.32) W przeciwnym przypadku przyjmij : G i przejdź do kroku 9. Krok 5: Jeżeli rozwiązanie 1 f wyznacz zbiór:,' =*Ï ( ), ' ( ) I I +. (6.2.33) W przeciwnym przypadku przyjmij : G i przejdź do kroku 9. Krok 6: Jeżeli 1] 2 A + 3 ] 2 +1 (6.2.34) na podstawie zbioru,' wyznacz współczynniki funkcji: h()=? +Ç? +? ) W przeciwnym przypadku przejdź do kroku 8. We wzorze (6.2.34) oznacza moc zbioru, natomiast dim. Krok 7: Wyznacz minimum funkcji h z zależności: A? Ç?. (6.2.36) Krok 8: Oblicz wartość funkcji celu w punkcie : $. (6.2.37) Krok 9: Wyznacz wagę Œ punktu, ), stosując algorytm 3. Krok 10: Powiększ zbiór Ï ( J),' ( J),) ( J) Ñ=Ï ( ),' ( ),) ( ) Œ Ñ oraz zwiększ >=>+1. Krok 11: Zmień wagi punktów stosując algorytm 4. Krok 12: Jeżeli spełniony jest warunek stopu, zakończ obliczenia i przyjmij = : G. (6.2.38) W przeciwnym przypadku zwiększ licznik iteracji = =Y1 i przejdź do kroku 3. 88

89 W pierwszym kroku algorytmu metody MABO, za pomocą algorytmu 1 tworzone są zarówno początkowy zbiór (*) jak i ' (*). Następnie obliczane są wagi wszystkich punktów (algorytm 2). W kroku 3 algorytmu wyznaczane są współczynniki funkcji aproksymacyjnej ;() danej wzorem (6.2.1) poprzez zastosowanie metody najmniejszych kwadratów minimalizujące błąd aproksymacji dany wzorem (6.2.31). Następnie (krok 4) sprawdzana jest określoność macierzy. Jeżeli macierz jest dodatnio określona, wyznaczane jest rozwiązanie minimalne ze wzoru (6.2.32). Jeżeli nie, jako rozwiązanie minimalne przyjmowany jest punkt ze zbioru ( ), dla którego wartość funkcji celu przyjmuje najmniejszą wartość i następuje przeskok do kroku 9-go, w którym wyznaczana jest waga punktu. Punkt pomimo, że już znajduje się w zbiorze ( ) jest do niego ponownie dołączany. W implementacji jest to zrealizowane poprzez podwojenie jego wagi. W kroku 5 sprawdzane jest położenie wyznaczonego rozwiązania minimalnego. Jeżeli nie spełnia ono narzuconych ograniczeń, podobnie jak w kroku 4-tym, jako rozwiązanie minimalne przyjmowany jest punkt ze zbioru ( ), dla którego wartość funkcji celu przyjmuje najmniejszą wartość i następuje przeskok do kroku 9-go. Jeżeli rozwiązanie nie narusza ograniczeń, tworzony jest podzbiór,' zbioru Ï ( ),' ( ),) ( ) Ñ zgodnie z (6.2.33). W skład podzbioru wchodzą punkty, których odległość od aktualnego minimum jest mniejsza niż przyjęty promień. Jeżeli jest on odpowiednio liczny (tzn. jest spełniony warunek (6.2.34)), w kroku 6-tym wykonywana jest lokalna aproksymacja funkcji celu. Do lokalnej aproksymacji wykorzystywana jest funkcja kwadratowa h() dana wzorem (6.2.35). W kroku 7 wyznaczane jest minimum funkcji h, które staje się nowym, dokładniejszym przybliżeniem rozwiązania optymalnego. Następnie (krok 8) poprzez wykonanie symulacji komputerowej wyznaczana jest wartość funkcji = $( ). W celu powiększenia zbioru konieczne jest wyznaczenie wagi Œ dodawanego punktu. Jest ona wyznaczana w kroku 9 na podstawie liniowej zależności (6.2.15) pomiędzy najlepszym i najgorszym punktem ze zbioru Ï ( ),' ( ),) ( ) Ñ zgodnie z przedstawionym algorytmem 3. W kolejnym kroku powiększany jest zbiór Ï ( ),' ( ),) ( ) Ñ o nowy punkt (,,Œ ). Następnie wagi wszystkich punktów są zmieniane zgodnie z algorytmem 4. W kroku 12-tym sprawdzane są warunki stopu. Jeżeli są one spełnione, metoda zwraca rozwiązanie optymalne. Jeżeli nie, następuje powrót do kroku 3-go. 89

90 powiększenie zbioru Ï ( ),' ( ),) ( ) Ñ o nowy punkt (, ) i obliczenia są kontynuowane. Schemat blokowy zmodyfikowanej metody optymalizacji aproksymacyjnej przedstawiono na rysunku

91 Rysunek 6.9. Schemat blokowy zmodyfikowanej strategii optymalizacyjnej. 91

92 Problem znalezienia minimum funkcji testowej (6.1.8) rozwiązano, stosując zmodyfikowaną metodę optymalizacji aproksymacyjnej. Do generowania zbioru początkowego zastosowano czteroetapowy plan eksperymentu ze współczynnikami skalowania równymi (=1;0,75;0,5;0,25. Przybliżenie rozwiązania optymalnego znalezione w pierwszej iteracji jest równe =0,6199. Wartość rzeczywistej funkcji $ w tym punkcie wynosi =$( )= 0,8641 (rysunek 6.10). W porównaniu do klasycznej wersji metody jest ono bliższe rzeczywistego rozwiązania optymalnego. Rysunek 6.10 przedstawia również początkowe wartości wag w poszczególnych punktach. Rysunek Pierwsza iteracja zmodyfikowanej metody aproksymacyjnej Rozwiązanie optymalne zostało znalezione po 17 wywołaniach funkcji celu (8 wywołań wykonano podczas generowania zbioru początkowego Ï (*),' (*),) (*) Ñ, 9 w kolejnych iteracjach metody). 92

93 Rysunek Rozwiązanie wyznaczone po siedemnastu wywołaniach funkcji celu. Znalezione rozwiązanie optymalne znajduje się w punkcie (, )= (0,7564; 6,0204). Powyższy przykład pokazuje, że opracowane modyfikacje w znaczący sposób wpływają na zbieżność metody Weryfikacja zmodyfikowanej strategii optymalizacji aproksymacyjnej Testy przeprowadzono wykorzystując pięć dwuwymiarowych funkcji benchmarkowych. Następnie na przykładzie funkcji wielowymiarowej sprawdzono, jak liczba wymiarów wpływa na dokładność wyznaczanego minimum oraz liczbę wywołań funkcji celu Funkcje testowe 2D Skuteczność działania zmodyfikowanej metody optymalizacji aproksymacyjnej sprawdzono, porównując wyniki poszukiwania minimum funkcji testowych otrzymanymi za jej pomocą z wynikami otrzymanymi za pomocą metod niedeterministycznych. Do testów wykorzystano pięć powszechnie stosowanych funkcji benchmarkowych. Poniżej znajdują się ich równania oraz wykresy. 93

94 Funkcja testowa Michalewicza $(, A )= Û=( ) Û={ fó Ø ƒ A* Û=( A ) Û={ Af Ó Ó Ø ƒ A* 6.3.1) 4,4 4,4 Rysunek Wykres funkcji testowej Michalewicza. Funkcja testowa Schwefela $, A )= Û=O P A Û=O A P 500, , ) Rysunek Wykres funkcji testowej Schwefela. 94

95 Funkcja testowa Ackley'a $(, A )= 20z *,A@*, OfÓ Jf Ó Ó P z *, OA$¹(AØf )JA$¹(AØf Ó )P +20+z ,5 1,5 Rysunek Wykres funkcji testowej Ackley'a. Funkcja testowa Rastrigina $, A )= A + A A ÚÛ(18 ) ÚÛ(18 A )+2 1,4 1, Rysunek Wykres funkcji testowej Rastrigina. 95

96 Funkcja testowa Rosenbrocka $(, A )=100( A A ) A +(1 ) A 2,2 2, Rysunek Wykres funkcji testowej Rosenbrocka. Parametry zastosowanych algorytmów niedeterministycznych zestawiono w tablicy 6.2. Z uwagi na stochastyczny charakter tych metod, optymalizację przeprowadzono 100 razy, a przedstawione poniżej wyniki są wartościami średnimi. Zbiór początkowy wykorzystywany w zmodyfikowanej metodzie aproksymacyjnej generowany był przy użyciu dziesięcioetapowego planu eksperymentu ze współczynnikami skalowania wynoszącymi (=1;0,9;0,8;0,7;0,6;0,5;0,4;0,3;0,2;0,1. 96

97 Tabela 6.2. Parametry algorytmów heurystycznych. Algorytm Parametry Liczba genów w chromosomie 20 Algorytm genetyczny (GA) Metoda roju cząstek (PSO) Algorytm ewolucyjny (1+1) Algorytm ewolucyjny (µ+λ), (µ,λ) Liczba chromosomów w populacji 20 Prawdopodobieństwo mutacji 0,05 Prawdopodobieństwo krzyżowania 0,8 Metoda krzyżowania Krzyżowanie jednopunktowe Liczba cząstek w roju 20 Współczynnik przyspieszenia 1 Współczynnik przyspieszenia A 1 Współczynnik bezwładności 0,8 Początkowy zasięg mutacji 1] 100 zakresu zmienności Liczba iteracji, po której następuje zmiana zasięgu mutacji Liczba osobników w populacji bazowej Liczba osobników w populacji potomnej Metoda krzyżowania Krzyżowanie uśredniające Jako warunek stopu przyjęto dwa kryteria. Pierwszym było przekroczenie liczby 5000 wywołań funkcji celu, drugim otrzymanie rozwiązania, którego wartość była mniejsza od zadanej wartości #. Wartości # dla poszczególnych funkcji testowych zestawiono w tabeli 6.3. Powszechnie stosowane kryteria polegające na testowaniu różnicy pomiędzy kolejnymi przybliżeniami rozwiązania optymalnego: I ( J) ( ) I A <L oraz N$O J P $O PN<Q nie zostały zastosowane ze względu na charakter wykorzystanych algorytmów optymalizacji. Często, ze względu na stochastyczny sposób poszukiwań, przez kilka iteracji nie następuje żadna zmiana rozwiązania, po czym ulega ono poprawie. 97

98 Tabela 6.3. Rozwiązania optymalne oraz przyjęte dokładności dla funkcji testowych. Funkcja testowa!"!" # Michalewicza 2,2029;1,5708) 1,8013 1,8 Schwefela (420,9687;420,9687) 837, Ackley'a (0;0) 0 10 Rastrigina (0;0) 0 10 Rosenbrocka ( 1; 1) 0 10 Wykresy przedstawiają średnią liczbę wywołań funkcji celu dla poszczególnych algorytmów i średnią wartość otrzymanego rozwiązania. Rysunek Wyniki dla funkcji testowej Michalewicza. Rysunek Wyniki dla funkcji testowej Schwefela. 98

99 Rysunek Wyniki dla funkcji testowej Ackley'a. Rysunek Wyniki dla funkcji testowej Rastrigina. 99

100 Rysunek Wyniki dla funkcji testowej Rosenbrocka. Tabela 6.4. Wyniki optymalizacji funkcji testowych (B liczba wywołań funkcji celu, wartość otrzymanego rozwiązania optymalnego). Algoryt m Funkcja Michalewicza # = 1,8 Funkcja Schwefela # = 837 Funkcja Ackey'a # =10 Funkcja Rastrigina # =10 Funkcja Rosenbrocka # =10 B B B B B MABO 75 1, , , š 74 5, š 87 9, š GA , , , , ,1683 PSO , , , š 966 0, , š (1+1) , , , , , š (µ+λ) , , (µ,λ) , , , š 6, š , , , ,1086 Porównanie wyników otrzymanych różnymi metodami potwierdza, że opracowana metoda MABO pozwala na znalezienie rozwiązania optymalnego dla znacznie mniejszej liczby wywołań funkcji celu. Jakość rozwiązania również jest najlepsza (wyjątkiem jest tu jedynie wynik otrzymany metodą roju cząstek dla funkcji testowej Rosenbrocka). 100

101 Wielowymiarowa funkcja testowa W celu sprawdzenia skuteczności strategii MABO przy rozwiązywaniu problemów wielowymiarowych przeprowadzono testy wykorzystujące funkcję Levy'ego daną wzorem: $()=sin A ([C) +D(a E 1) A O1+10sin A ([a E +1)P +(C 1) A O1+10sin A (2[C)P 5,15, gdzie: a E 1+ f À dla ==1,,. š Wykres funkcji Levy'ego dla przypadku dwuwymiarowego przedstawiono na rysunku Rysunek Wykres funkcji testowej Levy'ego. Jej minimum znajduje się w punkcie $n% =(1,,1), w którym $( $n% )=0. Zbiór punktów początkowych (*) generowany był przy użyciu pięcioetapowego planu eksperymentu ze współczynnikami skalowania równymi (=1;0,5;0,2;0,1;0,05. Jako warunek stopu przyjęto otrzymanie rozwiązanie mniejszego niż 10 lub przekroczenie 5000 wywołań funkcji celu. Parametry algorytmów heurystycznych były 101

102 identyczne jak w przypadku testów 2D (tabela 6.2). Otrzymane wyniki przedstawiono w tabeli 6.5. Tabela 6.5. Wyniki optymalizacji funkcji testowych (B liczba wywołań funkcji celu, wartość otrzymanego rozwiązania optymalnego, liczba wymiarów). Algoryt m MABO 19 =1 =2 =3 =4 =5 B B B B B 1, š 41 5, š 113 5, , š 960 9, š GA 664 3, š , š , , ,0443 PSO 126 4, š 268 7, š 438 8, š 773 0, ,1144 (1+1) , , , , ,044 (µ+λ) 75 (µ,λ) 77 1, š 1, š 276 0, , , , , , , ,2524 Rysunek Wyniki dla funkcji testowej Levy'ego. 102

103 Rysunek Wyniki dla funkcji testowej Levy'ego. Przedstawione wyniki pokazują, że w przypadku funkcji o niskiej liczbie wymiarów opracowana metoda MABO znajduje rozwiązanie w dużo mniejszej liczbie wywołań funkcji. Dla =5 metoda roju cząstek znalazła rozwiązanie porównywalnie szybko jak metoda MABO. Jednakże dokładność znalezionego rozwiązanie metodą MABO jest o dwa rzędy lepsza. Dla jeszcze większy wartości, wyniki uzyskiwane metodami heurystycznymi (zwłaszcza PSO) okazywały się lepsze. Przyczyną znacznego wzrostu liczby wywołań funkcji celu wraz ze wzrostem wymiaru problemu jest sposób generowania początkowego zbioru punktów. W opracowanym algorytmie zależność pomiędzy liczbą wywołań funkcji celu a liczbą zmiennych decyzyjnych jest wykładnicza, co można zauważyć na rysunku Z tego powodu, w przypadku optymalizacji funkcji więcej niż pięciu zmiennych, wskazane jest poprzedzenie procedury optymalizacji analizą wrażliwości w celu wyeliminowania zmiennych decyzyjnych mających najmniejszy wpływ na proces. Istnieje również możliwość zmniejszenia liczby punktów początkowych poprzez zastosowanie nieoptymalnego planu eksperymentu. Można to osiągnąć nakładając na wszystkie punkty ograniczenia (tzw. kontrasty ograniczające, opisane w rozdziale 5.1). 103

Pokazać jeszcze