4 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień
|
|
- Aneta Nawrocka
- 6 lat temu
- Przeglądów:
Transkrypt
1 Spis treści ROZDZIAŁ 1. Wstęp Przegląd literatury związanej z formułowaniem i rozwiązaniem problemu odwrotnego Prosty przykład ilustrujący zalety zastosowania metody aproksymacji relacji odwrotnej jednowymiarowe zagadnienie przewodzenia ciepła Eksperyment numeryczny 1 dobór SSN, jakość aproksymacji Eksperyment numeryczny 2 aproksymacja relacji odwrotnej Eksperyment numeryczny 3 jakość aproksymacji relacji odwrotnej Eksperyment numeryczny 4 aproksymacja relacji odwrotnej zależnej od czasu obserwacji ROZDZIAŁ 2. Zagadnienie odwrotne Problem wprost i odwzorowanie wprost Problem odwrotny i odwzorowanie odwrotne Rozwiązania zagadnienia odwrotnego przez aproksymację relacji odwrotnej ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego Elementy budowy operatora neuropodobnego Podstawowe określenia Działanie sztucznej sieci neuronowej Sieć neuronowa jako aproksymator funkcji wielu zmiennych Sformułowanie twierdzenia o aproksymacji funkcji Metody doboru parametrów sieci Klasyczne rozwiązanie problemu nadzorowanego uczenia sieci neuronowej warstwowej Przegląd innych algorytmów doboru wag synaptycznych Analiza jakości wytrenowania sieci neuronowej Własności prawidłowo wytrenowanej i prawidłowo skonstruowanej Sztucznej Sieci Neuronowej Numeryczna ocena jakości wytrenowania SSN dla problemu aproksymacji Przykład ilustrujący zastosowania SSN do aproksymacji prostej zależności funkcjonalnej Algorytm aproksymacji funkcji niejednoznacznej Przykład zastosowania metody sztucznych wzorców weryfikujących... 87
2 4 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów dynamicznych (FWD) Stosowanych w mechanice nawierzchni Opis impulsowego testu dynamicznego FWD Wykrywanie miejsc osłabienia podłoża za pomocą testu FWD jako rozwiązanie zagadnienia odwrotnego Wykrywanie miejsc osłabienia podłoża za pomocą testu FWD eksperyment numeryczny Możliwość zastosowania SSN do oszacowania parametrów podłoża na podstawie wyników testu FWD Sformułowanie zagadnienia analizy wstecznej wyników testu FWD przy użyciu SSN i metody elementów skończonych Eksperyment numeryczny zastosowanie SSN do analizy odwrotnej wyników testu FWD Analiza wsteczna wyników testu FWD przy użyciu SSN i wzorów symbolicznych Wnioski praktyczne ROZDZIAŁ 5. Rozprzestrzenianie się zanieczyszczeń w ośrodku gruntowym: identyfikacja parametrów procesu Równanie dyspersji, sformułowanie problemu Przykłady identyfikacji parametrów wpływających na rozprzestrzenianie się zanieczyszczeń w ośrodku porowatym na podstawie monitoringu Przykładowe wyniki procedury identyfikacji Niezawodność procesu identyfikacji Podsumowanie identyfikacja zagrożeń dla środowiska wynikających z eksploatacji składowisk ROZDZIAŁ 6. Uogólniona metoda autokoherentna w teorii homogenizacji jako problem odwrotny Zagadnienie termomechaniki wiązki nadprzewodzącej Metoda autokoherentna (GSCL) jako problem odwrotny Problem wprost Problem odwrotny Problem odwrotny wyrażony za pomocą gradientu funkcjonału Hilla Zastosowanie sztucznej sieci neuronowej do rozwiązania problemu odwrotnego Studium przypadku: homogenizcja wiązki nadprzewodzącej Rozwiązanie numeryczne problemu wprost Wnioski dotyczące zastosowania metody odwrotnej do zagadnienia homogenizacji autokoherentnej Literatura
3 ROZDZIAŁ 1. Wstęp Celem pracy jest przedstawienie możliwości zastosowania sztucznych sieci neuronowych do rozwiązania zagadnienia odwrotnego. Sztuczne sieci neuronowe są stosowane od wielu lat do rozwiązywania problemów związanych z identyfikacją parametrów modelu matematycznego. Omawiając przydatność sztucznych sieci neuronowych w rozwiązywaniu zagadnień inżynierskich, zazwyczaj wymienia się ich znaczenie dla rozwiązywania problemu odwrotnego. Ogólniej, wiele metod obliczeniowych inspirowanych obserwacją procesów biologicznych, takich jak, na przykład, proces ewolucji gatunków, transmisja sygnałów w układzie nerwowym organizmów żywych czy zachowania rojów, które dały początek, odpowiednio, algorytmom genetycznym, sztucznym sieciom neuronowym, optymalizacji rojem cząstek są stosowane bardzo często do rozwiązania zagadnienia odwrotnego. Nie jest celem tego opracowania przedstawienie zastosowań bogatego zbioru narzędzi numerycznych inspirowanych obserwacją naturalnych procesów biologicznych do rozwiązania zagadnienia odwrotnego. Przeciwnie, zamiarem autora jest przedstawienie jedynie jednego, bardzo uniwersalnego i prawdopodobnie najprostszego narzędzia obliczeniowego należącego do tej grupy metod numerycznych. Narzędziem tym są najbardziej klasyczne i chronologicznie najstarsze sieci neuronowe z warstwami ukrytymi, trenowane metodą wstecznej propagacji błędu. Sztuczne sieci neuronowe tego typu są najprostsze, najlepiej zrozumiane i najbardziej rozpowszechnione. Jednocześnie jak to zostanie pokazane w kolejnych rozdziałach mogą być one zastosowane w sposób niemal identyczny (z koncepcyjnego punktu widzenia) do bardzo szerokiego zakresu problemów odwrotnych. Automatyzm ten to ogromna zaleta proponowanej techniki rozwiązywania zagadnień odwrotnych. Autor wierzy, że prostota opisanej w pracy metody ułatwi rozwiązywanie problemów odwrotnych w powszechnej praktyce inżynierskiej. Zasada rozwiązania problemu odwrotnego przedstawiona w tym opracowaniu polega na aproksymacji relacji odwrotnej za pomocą sztucznej sieci neuronowej. W rozdziale pierwszym zostanie sprecyzowany sens pojęcia relacja odwrotna.
4 6 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Aby sformułować kilka ważnych uwag zapowiadających zawartość proponowanej pracy, na użytek tego rozdziału wstępnego, poniżej zostanie przedstawiony w sposób intuicyjny sens tego pojęcia. Przedtem jednak muszą zostać sformułowane inne terminy. Rozróżnimy najpierw relację wprost oraz zagadnienie wprost. Zwykle definicja zagadnienia wprost to układ równań różniczkowych cząstkowych zapisanych dla niewiadomych pól temperatury, przemieszczeń, naprężeń i innych wielkości, których rozkład przestrzenny i ewolucja w czasie są przedmiotem badań klasycznych gałęzi fizyki matematycznej, takich jak termomechanika, mechanika płynów i wielu innych. Relacją wprost nazwiemy zależność definiującą wartości niewiadomych dowolnego zagadnienia inżynierskiego w funkcji uogólnionych obciążeń oraz stałych fizycznych, danych materiałowych i innych parametrów koniecznych do zdefiniowania zagadnienia wprost. Relacja wprost to rozwiązanie zagadnienia wprost. Zauważmy, że zapisanie takiego rozwiązania lub jego wystarczająco dokładnego przybliżenia jest zwykle możliwe bez specjalnego wysiłku koncepcyjnego. Zakładamy w tej pracy, że interesują nas jedynie zagadnienia odwrotne stowarzyszone z zagadnieniami wprost, których rozwiązania lub algorytmy rozwiązań są znane. Oznacza to, że istnieją metody symbolicznego lub numerycznego, dokładnego lub przybliżonego rozwiązania zagadnienia wprost. Metody takie, nawet niezwykle trudne teoretycznie lub złożone numerycznie i wymagające zaawansowanych obliczeń, uważamy za dane i znane. Zagadnienie odwrotne stowarzyszone z dowolnym zagadnieniem wprost to zwykle zagadnienie optymalizacji z więzami, którymi są równania definiujące zagadnienie wprost. Zaobserwowane wartości niewiadomych rządzących problemem to stały element sformułowania zagadnienia odwrotnego. Niewiadome w zagadnieniu wprost to najczęściej wielkości obserwowalne, czyli takie, które można zmierzyć wykonując doświadczenie. Zagadnienie odwrotne to zwykle pytanie o uogólnione obciążenia lub parametry materiałowe (parametry definiujące operatory użyte w klasycznym sformułowaniu wprost ), dla których można uzyskać zaobserwowane rozwiązanie tego zagadnienia. Zagadnienie odwrotne jest więc zagadnieniem minimalizacji pewnej odległości w obecności więzów, często bardzo złożonych i prowadzących do trudnych matematycznie zagadnień. Zmiennymi niezależnymi w tym zagadnieniu są uogólnione obciążenia i parametry materiałowe (parametry definiujące zagadnienie wprost ). Jeśli istnieje rozwiązanie przedstawiające te obciążenia lub te parametry w funkcji zmiennych obserwowalnych, to rozwiązanie będziemy nazywali relacją odwrotną lub zależnością odwrotną.
5 ROZDZIAŁ 1. Wstęp 7 W pracy przedstawimy sposób aproksymacji zależności odwrotnej za pomocą sztucznych sieci neuronowych na podstawie wystarczającej liczby przykładów jej realizacji. Realizacje te będą otrzymane jako rozwiązania zagadnienia wprost. Rozwiązania zagadnień wprost są dobrze znane w inżynierii. Nie będzie potrzeby formułowania zagadnienia odwrotnego, a tym bardziej rozwiązywania skomplikowanego zagadnienia minimalizacji odległości rozwiązania od wartości tego rozwiązania pomierzonych w kilku punktach: minimalizacji w obecności więzów, którymi są równania definiujące zagadnienie wprost (unikniemy więc rozwiązywania zagadnienia, które jest zwykle bardzo złożone i prowadzi do niełatwych zagadnień teoretycznych). Co więcej, raz uzyskane przybliżenie relacji odwrotnej zapisane w postaci właściwie wytrenowanej sztucznej sieci neuronowej funkcjonuje tak, jak wzór symboliczny w klasycznej matematyce. Jest to ogromna przewaga proponowanego podejścia nad innymi algorytmami. Na przykład zastosowanie algorytmu genetycznego zakłada wykonanie obliczeń genetycznych dla każdego zespołu danych doświadczalnych. Podobnie każde klasyczne, najczęściej iteracyjne rozwiązanie zadania minimalizacji funkcjonału z ograniczeniami. Przedstawiony algorytm działa inaczej: jego rezultatem jest wytrenowana sieć neuronowa, która powinna być funkcjonalnie identyczna dla wszystkich doświadczeń i właściwa dla danego typu zagadnienia. Oznacza to, że na przykład w zagadnieniu ustalania sztywności warstw podłoża na podstawie pomierzonych wielkości ugięć (Falling Weight Deflectometer FWD) nawierzchni nie będzie trzeba powtarzać obliczeń algorytmu minimalizacji z więzami. Wystarczy wprowadzić ugięcia pomierzone w kolejnym doświadczeniu na wejście sztucznej sieci neuronowej wytrenowanej dla danej klasy nawierzchni, aby odczytać na wyjściu sieci niewiadome sztywności warstw. Poniżej wymienimy zasadnicze zalety proponowanej metody. Będą one ilustrowane przykładami zawartymi w dalszych rozdziałach tej pracy. Procedura jest niemal automatyczna, nie wymaga kreatywnego myślenia, stosuje się do szerokiej gamy zagadnień. Formalne sformułowanie zadania odwrotnego w klasycznej postaci zagadnienia minimalizacji z ograniczeniami (lub jakiejkolwiek innej klasycznej postaci, na przykład z wykorzystaniem prawdopodobieństwa warunkowego), nie jest konieczne. Narzędzia numerycznego znalezienia rozwiązania problemu odwrotnego ograniczają się do tych, jakie są używane przy rozwiązywaniu
6 8 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień odpowiedniego, wyjściowego zagadnienia wprost, a więc są z reguły dobrze znane. Dodatkowym, choć podstawowym w tej metodzie, narzędziem numerycznym są sztuczne sieci neuronowe używane w roli aproksymatorów numerycznych. Aby je zastosować, można użyć jednego z wielu komercyjnych programów komputerowych, które są łatwo dostępne, proste i tanie. Problemy związane z prawidłowością sformułowania zagadnienia odwrotnego (istnienie rozwiązania i jego jednoznaczność) łatwo analizować, obserwując i interpretując przebieg i wyniki treningu sztucznej sieci neuronowej. Metoda rozwiązania zagadnienia odwrotnego za pomocą relacji odwrotnej ma również istotne wady i ograniczenia. Najważniejszym ograniczeniem metody jest to, że stosuje się ona tylko do przypadków, w których relacja odwrotna jest funkcją bijekcyjną. Jedynie wtedy aproksymacja za pomocą sieci neuronowych istnieje. Przypadek niejednoznaczności odwzorowania odwrotnego jest równoznaczny z brakiem jednoznaczności również w ewentualnym sformułowaniu klasycznym. Wobec tego, aby rozwiązać ten problem należy zwykle zmienić technikę obserwacji. Pomierzyć należy zmienne obserwowalne w innych punktach lub/i zmienić liczbę obserwowanych punktów. W tej pracy ograniczenia metody związane z niejednoznacznością nie będą w sposób istotny dotyczyły głównych zagadnień inżynierskich, które ją egzemplifikują. W tych zastosowaniach, które zostaną zaproponowane jako możliwe kierunki wdrożeń inżynierskich, zwykle nie ma kłopotu z jednoznacznością rozwiązania zagadnienia odwrotnego. Pomimo tego, w pracy zostaną również wskazane kierunki rozwiązania problemu niejednoznaczności rozwiązania właściwe dla proponowanej metody, to znaczy dla użycia sieci neuronowych do aproksymacji relacji odwrotnej. Przedstawione w opracowaniu metody odwrotne mają lub mogą mieć wiele ważnych zastosowań gospodarczych związanych, na przykład, z wykrywaniem i charakterystyką źródeł zanieczyszczeń oraz z opisem właściwości ośrodka, w którym mogą się one rozchodzić. Dotyczy to przede wszystkim opisu funkcjonowania i monitoringu środowiska sąsiadującego ze składowiskami odpadów, zagrożonego odciekami lub emisją gazów. Składowiska odpadów są (w kontekście tej pracy) przedmiotem analizy w dwóch podstawowych aspektach: jako instalacje i jednocześnie obiekty budowlane, które muszą spełniać określone prawem wymagania dotyczące budowy, funkcjonowania, zamykania oraz eksploatacyjnego i poeksploatacyjnego monitoringu.
7 ROZDZIAŁ 1. Wstęp 9 Ocena stanu technicznego składowiska odpadów wiąże się z prognozą skuteczności funkcji ochronnej tej instalacji w stosunku do poszczególnych elementów środowiska naturalnego, w kontekście sytuacji szczegółowej, scharakteryzowanej wieloma parametrami opisującymi stan techniczny i zawartość składowiska IPPC (Integrated Pollution Prevention and Control). Ważnym elementem oceny bezpieczeństwa środowiska naturalnego są wnioski z prowadzonego monitoringu. Analiza rozwiązań technologicznych, w tym ocena spełnienia wymagań stawianych lokalizacji składowisk jest problemem rozwiązywanym przez eksperta na podstawie istniejących przepisów szczegółowych i w kontekście postulatywnego opisu najlepszych dostępnych technik składowania (Best Available Techniques BAT). Przedstawione metody bazujące na rozwiązaniu zagadnienia odwrotnego są zgodne z Ramową Dyrektywą Wodną Unii Europejskiej 2000/60/WE, Państwa Członkowskie zobowiązane są do ustanowienia i prowadzenia stałego monitoringu stanu wód Przegląd literatury związanej z formułowaniem i rozwiązaniem problemu odwrotnego Przegląd literatury dotyczącej zagadnienia odwrotnego jest zadaniem bardzo trudnym. Jest to problem podstawowy dla większości zagadnień związanych z ustaleniem wartości parametrów, będących elementami opisu teoretycznego zjawisk. Znajduje więc zastosowanie w dyscyplinach doświadczalnych fizyki, mechaniki stosowanej, inżynierii materiałowej i innych podobnych. Jest to podstawowe narzędzie analizy teoretycznej w zagadnieniach związanych z wykrywaniem uszkodzeń, wczesnego przewidywania awarii i orzekania o stanie konstrukcji na podstawie obserwacji jej pracy. Problem odwrotny szeroko dyskutowany jest w matematyce. Daje on tu okazję do ciekawych analiz związanych ze złym postawieniem problemu bądź ze złym uwarunkowaniem zagadnienia. Niezwykła rozmaitość sformułowań teoretycznych zagadnienia odwrotnego może być tematem bardzo obszernej pracy przeglądowej. Zastosowanie metod miękkich do rozwiązania zagadnień odwrotnych to kolejna dziedzina aktywności naukowej, warta oddzielnej rozprawy. W tym przeglądzie bardzo krótko przedstawię najważniejsze prace matematyczne dotyczące zagadnienia odwrotnego. Więcej miejsca poświęcę problemom odwrotnym związanym z zagadnieniami inżynierskimi, w szczególności formułowaniu i rozwiązywaniu tej klasy zagadnień za pomocą miękkich narzędzi obliczeniowych.
8 10 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Interesujący przegląd zagadnień matematycznych, do jakich prowadzą sformułowania odwrotne, znaleźć można w pracach związanych z osobą H.R.B. Orlande, spośród których zacytuję jedynie [138] i [139]. W części przeglądowej pracy [138] zamieszczono wykresy liczbowego rozwoju literatury poświęconej tej dziedzinie. Jedynie zagadnieniom związanym z przewodnictwem cieplnym poświęcone było od 40 do 140 prac rocznie w pierwszej dekadzie XXI wieku. W tym okresie opublikowano około 200 prac matematycznych dotyczących problemu odwrotnego i około 700 prac związanych z zastosowaniem rozwiązań zagadnień odwrotnych w inżynierii. Również w pracach P. Lamm można znaleźć ciekawe wprowadzenie do matematycznych problemów związanych z formułowaniem i rozwiązywaniem zagadnień odwrotnych. W pracach [85], [86], [87] zamieszczono w zbiorze cytowanej literatury syntetyczne i bardzo trafne przeglądy oraz podstawowe prace z tej dziedziny. Zagadnienia matematyczne, do których prowadzą problemy odwrotne, to przede wszystkim sformułowania całkowe zagadnień brzegowo-początkowych, rozwiązania (także numeryczne) równań Volterry, analiza prawidłowości sformułowania i uwarunkowania problemu. Szczególnie ciekawe jest ogromne spektrum metod regularyzacji, zagadnień niepoprawnie postawionych, począwszy od regularyzacji Tichonova, aż po algorytmy indywidualne, proponowane przez autorów prac, bazujące (na przykład) na rozkładzie macierzy według wartości szczególnych. Te zagadnienia są analizowane w pracach P. Lamm [85-87], odsyłacze do literatury związanej z tymi zagadnieniami znajdują się w cytowanych pozycjach. Inna grupa zagadnień matematycznych, których źródłem są zagadnienia odwrotne, to zastosowanie podejścia statystycznego oraz sformułowania opartego o teorię i formalizm Bayesowski, mający związek z obliczaniem prawdopodobieństwa warunkowego. Dobrym przewodnikiem po tej rodzinie zagadnień jest H.R.B. Orlande, w pracach [138] i [139] znaleźć można odsyłacze do kolejnych pozycji literatury z tego obszaru poszukiwań badawczych. W cytowanych powyżej pracach znajdują się elementarne wprowadzenia do metod związanych z łańcuchami Markova, z metodą Monte Carlo oraz z modelami zastępczymi, pozwalającymi na poprawę rozwiązania. U cytowanych powyżej autorów znaleźć można również sformułowanie zagadnienia odwrotnego za pomocą mnożników Lagrange a. Sformułowanie to polega na zapisie warunku minimum odległości między pomierzonymi wartościami zmiennych obserwowalnych, które spełniają warunki opisane zagadnieniem wprost, uwzględnione przez mnożniki Lagrange a
9 ROZDZIAŁ 1. Wstęp 11 w procesie minimalizacji. Zagadnienie wprost jest tu elementem funkcjonału poddanego procedurze poszukiwania minimum. W polskiej literaturze związanej z zagadnieniem odwrotnym w ujęciu Bayesowskim pojawiła się ostatnio bardzo ciekawa monografia w całości poświęcona temu sformułowaniu. Jest to praca M. Słońskiego [167]. W środowisku Politechniki Krakowskiej ten nurt badawczy został zainicjowany przez profesora Z. Waszczyszyna. Grupa badawcza, która tam powstała (K. Kuźniar, E. Pabisek, M. Słoński, M. Tekieli i inni) łączy w swoich pracach rozwój oryginalnych algorytmów numerycznych z eksperymentami laboratoryjnymi, pozwalającymi na walidację osiągnięć teoretycznych, np. [83], [84]. Interesujące przeglądy dokonań i pespektyw związanych z zagadnieniem odwrotnym można znaleźć w pracach Z. Waszczyszyna i L. Ziemiańskiego [ ], [206]. W tych pracach zamieszczono podstawowe przeglądy literatury i cenne referencje. Ciekawe są konferencje poświęcone między innymi zagadnieniom odwrotnym (w ramach ECCOMAS), organizowane przez prof. Waszczyszyna i współpracowników, ostatnia w Baranowie w 2013 r. [106]. Należy również zauważyć, że dominującą tematyką cytowanych tu prac prof. Waszczyszyna jest zastosowanie sztucznych sieci neuronowych do rozwiązania zagadnienia odwrotnego, które nie ogranicza się do podejścia Bayesowskiego. Zwracają uwagę ciekawe przykłady zastosowania filtrów Kalmana do przyspieszania zbieżności iteracyjnych metod przybliżonych. Grupa prac przeglądowych dotyczących problemu odwrotnego to prace napisane pod kierunkiem T. Uhla [ ]. Są to prace ściśle związane z zastosowaniami inżynierskimi, przeważa zagadnienie identyfikacji elementów obciążenia konstrukcji. W pracach tych znaleźć można interesujący przegląd metod klasycznych, obecne są jednak również zastosowania SSN do rozwiązania omawianych tam zagadnień. Klasyczne sformułowanie zagadnienia odwrotnego zastosowanego do identyfikacji parametrów poro-plastycznego modelu konstytutywnego spieków metali zaproponowano w pracach I. Pokorskiej [146], [147]. Autorka zakłada, że są znane wyniki pomiarów eksperymentalnych. Parametry modelu wyznacza tak, aby zachodziło minimum rozbieżności między odpowiedzią pomierzoną i obliczaną komputerowo. Autorka stosuje gradientowy algorytm Fletcher-Reeves, wykorzystując wcześniej wyprowadzone gradienty wrażliwości modelu. Opisaną procedurę identyfikacji testuje stosując wyniki własnych eksperymentów laboratoryjnych, wykonanych na porowatych spiekach z proszku aluminium. W kolejnej pracy opisano problem identyfikacji parametrów modelu. Funkcję rozbieżności zdefiniowano jako normę błędu w przestrzeni przemieszczeń, minimalizując ją ze
10 12 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień względu na parametry modelu. Autorka stosuje metodę gradientową do identyfikacji czterech parametrów materiałowych dla materiału sztywno-lepko-plastycznego ze wzmocnieniem potęgowym. Prace te są ważnym przykładem zastosowania metody odwrotnej do sformułowania ciekawych i zaawansowanych teoretycznie modeli konstytutywnych spieków proszków metali, traktowanych jako ciało sztywno-lepko-poro-plastyczne. Zastosowanie całej gamy miękkich metod obliczeniowych do rozwiązywania problemów odwrotnych związane jest z nazwiskiem profesora T. Burczyńskiego i z grupą badawczą Jego współpracowników. W ciekawym artykule [16], opisującym stan wiedzy w omawianej tu dziedzinie, przedstawiono przegląd inteligentnych technik komputerowych w rozwiązywaniu problemów odwrotnych mechaniki. Techniki te opierają się na algorytmach ewolucyjnych (EAS) i sprzężeniach algorytmów ewolucyjnych (EAS) i sztucznych sieci neuronowych (SSN) w postaci jednostek inteligencji obliczeniowej (CISS). Uwagę skupiono głównie na identyfikacji defektów, takich jak ubytki lub pęknięcia w konstrukcjach. Jakościową i ilościową analizę takich defektów prowadzi się na podstawie wiedzy o przemieszczeniach, temperaturze i drganiach własnych. Identyfikacja liczby, pozycji, wielkości i rodzaju uszkodzeń omówiona jest dla szerokiej klasy konstrukcji sprężystych. Praca zawiera wiele testów i przykładów liczbowych. Kolejny ciekawy artykuł przeglądowy, wiążący analizę wrażliwości z rozwiązaniem zagadnienia odwrotnego, to praca [15]. Przykładem reprezentatywnym dla bardzo licznego zbioru artykułów poświęconych wykrywaniu defektów, otworów, badaniu kształtu elementów konstrukcji, badaniu obciążenia itp. są artykuły [17-19]. W pracach tych znaleźć można pogłębioną analizę związków między zagadnieniem odwrotnym a procedurami optymalizacji oraz analizy wrażliwości. Również Metoda Elementów Brzegowych używana jest w tych pracach jako narzędzie rozwiązania zagadnienia wprost oraz w zastosowaniach hybrydowych. Wraz z rozwojem teorii sztucznych sieci neuronowych pojawiły się dwa podstawowe obszary tematyczne dla ich zastosowań. Pierwszy z nich to użycie sieci neuronowych warstwowych do aproksymacji relacji między zmiennymi na podstawie pomiarów eksperymentalnych (w tym do modelowania właściwości konstytutywnych materiałów). Drugi obszar tematyczny to użycie SSN do identyfikacji parametrycznej, przez aproksymacje relacji odwrotnej, wiążącej zbiory zmiennych. W obu tych zastosowaniach zdolność SSN do aproksymacji relacji między zbiorami zmiennych jest kluczowa dla znalezienia rozwiązania.
11 ROZDZIAŁ 1. Wstęp 13 Zastosowanie SSN do rozwiązania zadania odwrotnego stało się tematem wielu prac, zadanie odwrotne formułowane było dla wszystkich niemal zagadnień inżynierii. Przykłady artykułów, w których przedstawiono zastosowania szczególnie ciekawe, to prace: [34], [52], [67], [75], [79], [163], [196]. Wśród tych prac szczególnie interesujący jest przegląd zamieszczony w artykule [79]. Zastosowanie SSN do analizy zagadnień odwrotnych zaowocowało, jak się wydaje, rozwojem tej, szczególnie przydatnej, techniki. W spisie literatury przytoczono wiele podręczników opisujących działanie i budowę sztucznych sieci neuronowych. Są to między innymi prace: [120] (praca pionierska), [1], [3], [21], [29], [181], [184], [199]. W stosunku do klasycznego opisu SSN, jaki można znaleźć w wymienionych podręcznikach, pewne specyficzne aspekty związane z zastosowaniem sieci do rozwiązania problemu odwrotnego są przedstawione w pracach [20], [22], [25], [26], [58], [118], [129], [169]. W tych ostatnich pracach przedstawiono twierdzenia dotyczące właściwości aproksymacyjnych SSN oraz zarysowano liczne techniki przyspieszające i stabilizujące zbieżność w szczególnych zastosowaniach inżynierskich. W tej książce przedstawiono zastosowania SSN w zagadnieniach, które stosunkowo rzadko są omawiane w literaturze. Zagadnienia związane z testami dynamicznymi w mechanice nawierzchni drogowych (rozdział 4), w identyfikacji parametrów źródeł zanieczyszczeń rozchodzących się w gruncie w sąsiedztwie składowisk odpadów (rozdział 5), w zastosowaniu do zagadnień mechaniki kompozytów (rozdział 6). Uprzednio szereg publikacji stał się pierwszym krokiem do podsumowania tych zagadnień w niniejszej książce. Były to artykuły, pisane zwykle z moimi współpracownikami, prof. B.A. Schreflerem i D.P. Boso: [13], [39-41], [49], [88-108], [128], [ ]. We wszystkich tych pracach, tak jak w niniejszej książce, podkreślono uniwersalność metody aproksymacji relacji odwrotnej. Jednocześnie prześledzono i skomentowano właściwości rozwiązania, zależne od rodzaju problemu inżynierskiego, jakiego dotyczy. Aby zachować uniwersalność i automatyzm, wygodny dla inżyniera, nigdzie nie zastosowano (całkowicie intencjonalnie) podejścia Bayesowskiego, które narzuca, zdaniem autora, dodatkowe trudności w sformułowaniu zagadnienia. Nigdzie nie znaleziono przykładu pozwalającego zastosować to podejście do identyfikacji większej liczby parametrów. Nigdzie też, również intencjonalnie, nie zastosowano wstępnego przygotowania danych, takiego jak fuzzyfikacja czy też analiza PCA. Pierwsza z tych metod może uniemożliwić zauważenie złego uwarunkowania problemu, spowodowanego błędnym projektem eksperymentu, druga pozwala na ograniczenie rozważań
12 14 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień do mniejszej liczby argumentów, jednak w sensie identyfikacji modelu założonego wcześniej jest zabiegiem niedopuszczalnym. W rozdziale 3 przedstawiono metody, które zostały użyte w treningu sieci tam, gdzie należało unikać niejednoznaczności relacji odwrotnej lub w przypadku, gdy liczba danych uczących była niewystarczająca. Obie te metody były publikowane wcześniej w artykułach [13] i [49]. Podstawową cechą rozwiązań zawartych w tej książce jest dążenie do redukcji problemu do zagadnień dobrze znanych, związanych z rozwiązaniem problemu wprost oraz poszukiwanie interpretacji trudności numerycznych w sferze projektowania doświadczenia, polegającego na pomiarze wielkości obserwowalnych raczej niż we właściwościach matematycznych sformułowania problemu. Jest to podporządkowane zasadzie udostępnienia możliwości rozwiązania zagadnienia odwrotnego jak najszerszej grupie inżynierów, którzy nie zawsze mają doświadczenie naukowo-badawcze Prosty przykład ilustrujący zalety zastosowania metody aproksymacji relacji odwrotnej jednowymiarowe zagadnienie przewodzenia ciepła Rozpatrzmy (podobnie jak w artykule Patricii K. Lamm [86]) bardzo prosty problem odwrotny, mianowicie problem odwrotny dla zagadnienia przewodzenia ciepła. Zagadnienie takie pojawia się zwykle wtedy, gdy mierzymy temperaturę wewnątrz pewnego obszaru materialnego po to, aby poznać temperaturę lub strumień na powierzchni tego obszaru. Podobnie pomiar może być dokonywany na pewnym fragmencie powierzchni, zaś niewiadomy rozkład temperatur może dotyczyć innej (niedostępnej) części brzegu. Pomiary temperatury przeprowadza się w kilku miejscach w obszarze materialnym, być może na pewnym, dostępnym fragmencie jego brzegu. Zbierane one są przez pewien czas lub wykonywane w pewnych odstępach czasu, w kolejnych chwilach. Otrzymuje się w ten sposób wykres zmian temperatury w funkcji czasu w kilku punktach pomiarowych. Celem zadania jest znalezienie podobnego wykresu temperatury na innym fragmencie brzegu tego obszaru (ogrzewanego lub chłodzonego z zewnątrz). Wiele praktycznych interpretacji może być stowarzyszonych z tym zagadnieniem. Rozpatrzmy najprostszy, jednowymiarowy przykład ustalenia historii temperatury u = u(t) na krańcu x = 0 izolowanego, półnieskończonego pręta. To proste zagadnienie jednowymiarowe może być rozumiane jako najprostsza możliwa ilustracja procedury ustalenia historii rozkładu temperatury na powierzchni ośrodka. Położenie punktów pręta mierzone jest wzdłuż dodatniej części osi
13 ROZDZIAŁ 1. Wstęp 15 współrzędnych x. Jeżeli temperatura u(t) na krańcu pręta jest znana, zagadnienie to opisane jest następującym równaniem różniczkowym cząstkowym: (, ) 2 wtx (, ) wtx t =, 0 < x<, 0< t < T 2 x ( ) ( ) ( ) wt,0 = ut, 0< t< T w 0, x = 0, 0 < x< (1.1 1 ) (1.1 2 ) Aby być w zgodzie z rozwiązaniem przedstawionym w pracy [86], współczynnik przewodzenia ciepła w równaniu (1.1) i wszystkich następnych przyjęto równy jedności. W cytowanym artykule [86], autorki nie interesuje rozwiązanie wprost powyższego problemu. Jest to rozwiązanie w(t,x) pozwalające ustalić rozkład temperatury dla każdego danego u(t). Oczywiście, dla większości inżynierów uzyskanie takiego rozwiązania jest łatwe. Można je znaleźć metodami numerycznymi, najłatwiej metodą elementów skończonych, liczne programy komercyjne pozwalają na uzyskanie takiego rozwiązania dla zadanego u(t). Jest też dość łatwo rozwiązać to zagadnienie zapisując układ równań metody różnic skończonych. Ponadto istnieje rozwiązanie symboliczne tego problemu, które zostanie zacytowane poniżej za podręcznikiem [23]. Dla dowolnego u(t) 2 x 4xt ( t ) ( ) = ( t) 2 π ( t t ) t x e w t,x u dt (1.2) To rozwiązanie problemu wprost zostało tu zacytowane, ponieważ wystarczy je znać, aby zgodnie z proponowaną techniką postępowania wyznaczyć rozwiązanie odwrotne. W dalszej części tego punktu użyte będzie powyższe rozwiązanie, w którym tylko całkowanie zostanie wykonane numerycznie. Podkreślam, że również dowolne rozwiązanie numeryczne uzyskane programem MES lub MRS może być użyte w tym samym celu. Metody te będą użyte w dalszych rozdziałach do rozwiązania innych zagadnień odwrotnych. W artykule P. Lamm [86] rozwiązanie wprost nie jest potrzebne, zamiast tego zostało sformułowane następujące zagadnienie odwrotne: Jeśli dane pomiarowe zostały zebrane dla dowolnego punktu (w cytowanym artykule i we wzorach poniżej dla punktu x = 1), to znaczy, że dysponujemy zbiorem niezaburzonych danych pomiarowych:
14 16 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień ( ) ( ) f t w t, 1 R, 0< t < T (1.3) to można wykazać, że zagadnienie odwrotne polega na znalezieniu funkcji u(t), takiej że: A u t = f t t 0,T (1.4) ( )( ) ( ) [ ] zaś A jest ograniczonym, liniowym operatorem określonym następująco: t ( )( ) = ( ) ( ) [ 0 ] A u t k t, t u t dt t,t (1.5) 0 gdzie jądro operatora A ma charakter konwolucji: 1 1 4t k t, t = k t t k t = e t 0,T π t ( ) ( ) ( ) [ ] (1.6) Funkcja u(t) będąca rozwiązaniem zagadnienia odwrotnego jest więc rozwiązaniem równania całkowego Volterry pierwszego rodzaju. W pracy [8] rozwiązanie jest uzyskane numerycznie, następnie dyskutuje się jego regularność. Zauważmy, że w praktyce znane są zwykle pewne realizacje funkcji f(t) dla kilku chwil czasu t oznaczonych indeksem i: 0 < t i < T. Cytując za [86] równania (1.4)-(1.6) chcę podkreślić, że sformułowanie zagadnienia odwrotnego, już dla prostego przypadku pręta, nie jest trywialne. Dlatego ważnym argumentem na korzyść metody stosowanej w tej pracy jest fakt, że sformułowanie tego typu nie jest potrzebne do rozwiązania zagadnienia odwrotnego metodą proponowaną w książce. Brzmi to paradoksalnie, jednak zgodnie z przedstawioną metodą aproksymacji relacji odwrotnej, sformułowanie zagadnienia odwrotnego nie jest konieczne. Jest to ogromne ułatwienie z inżynierskiego punktu widzenie, zwłaszcza w sytuacji, gdy rozwiązania inżynierskie większości zagadnień wprost są dobrze znane, podczas gdy nie tylko sformułowanie, ale i rozwiązanie zagadnienia (1.2) nie jest klasycznym, dobrze znanym zagadnieniem inżynierskim (i to już dla najprostszego zadania przewodzenia ciepła!). Rozwiązanie będzie skonstruowane według poniższego algorytmu. Krok 1. Dla danego zbioru próbnych funkcji u(t), opisanych numerycznie przez zadanie ich wartości w chwilach kolejnych kroków czasowych, zostanie obliczony odpowiadający im zbiór rozwiązań w(t i,1) używając wzoru (1.2) i arkusza Excel lub programu obliczeń symbolicznych Maple dla wykonania całkowania numerycznego. W wyniku tego kroku otrzyma się zbiór par ciągów:
15 ROZDZIAŁ 1. Wstęp 17 {{ 1,..., }, { 1,..., }} u u f f (1.7) N N K gdzie N to liczba kroków czasowych wziętych pod uwagę, zaś K to liczba próbnych rozwiązań zagadnienia wprost (równanie 1.1). Krok 2. Zbudowana zostanie relacja odwrotna M, która każdemu uporządkowanemu zbiorowi wartości pomierzonych f przypisze odpowiadający mu ciąg wartości obciążenia cieplnego u na lewym krańcu pręta. Dla każdej pary ciągów: {{ N} { } i N i} { } = u,...,u, f,..., f i K ( 1 N ) { 1 N} M@ f,..., f u,..., u i i (1.8 1 ) (1.8 2 ) został użyty dlatego, że M okaże się pewnym operatorem numerycznym, który odpowiada na swoim wyjściu ciągiem u, jeśli na jego wejściu został wprowadzony ciąg f pomierzonych wartości temperatury. Operator M zostanie przyjęty w postaci sztucznej sieci neuronowej, która ma N neuronów na wejściu, N neuronów na wyjściu, zaś wytrenowana została zbiorem wzorców uczących o liczności K. Sieć ta będzie zależnością funkcyjną, przybliżającą ze skończonym błędem relację M, wobec tego wzór (1.8.2) powinien zostać przepisany następująco: ({ 1 N} ) = { 1 { 1 N} i i i { } = + f,..., f u,...,u u,...,u ( 1 N ) { 1 N} { 1 N} f,..., f u,...,u e,...,e i i i Ciąg {e j } i to ciąg błędów przybliżenia rozwiązania odwrotnego. (1.8 3 ) (1.8 4 ) Krok 3. Sprawdzona zostanie poprawność rozwiązania: dla ciągu {u 1,,u N } otrzymanego dzięki formule (1.8 3 ) obliczony zostanie odpowiadający mu ciąg rozwiązań {w(t 1,1),, w(t N,1)}, czyli {f 1,,f N }. Obliczenia te należy przeprowadzić używając wzoru (1.2) i dowolnego narzędzia obliczeniowego (obliczenie wprost, o którym zakładamy, że jest łatwo wykonalne). W wyniku tego kroku otrzyma się ciąg bliski w odpowiednim sensie argumentowi operatora M w równaniu (1.8.2). Miara błędu względnego E (1.9) jest tu narzędziem oceny jakości przybliżonego rozwiązania odwrotnego: { } E = e u,...,e u (1.9) 1 1 N N Ten trzeci punkt algorytmu jest konieczny w przypadku zastosowania sztucznych sieci neuronowych.
16 18 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Przykład jednowymiarowy przewodzenia ciepła W przykładzie rozpatrzono dwa przypadki obciążenia cieplnego. W pierwszym z nich założono, że temperatura u na krańcu pręta wzrasta liniowo z prędkością v do momentu t 0, następnie temperatura jest utrzymywana na osiągniętym poziomie. Funkcja obciążenia termicznego jest opisana tylko dwoma parametrami: szybkością wzrostu temperatury v i czasem, po którym następuje jej stabilizacja t 0. u 1 ( t) vt dla t t = vt dla t > t (1.10) W drugim przypadku założono, że temperatura na krańcu pręta opisana jest funkcją o następującej postaci (w ewentualnym zagadnieniu praktycznym aproksymowana jest taką funkcją): 2 ( ) t D B C u t = At e (1.11) Funkcja obciążenia termicznego zależy w tym przypadku od czterech parametrów, których nie ma potrzeby interpretować fizycznie. W obu przypadkach indeks dolny służy jedynie do odwołania się do pierwszego lub drugiego przebiegu temperatury w czasie. Podobnie, funkcja ewolucji temperatury w wybranym punkcie pręta, otrzymana ze wzoru (1.2), będzie oznaczona indeksem 1 (w 1 (t,1)), jeśli argumentem w równaniu (1.2) jest u 1 (1.10), zaś indeksem 2 (w 2 (t,1)), jeśli argumentem w równaniu (1.2) jest u 2 (1.11). a. b. Rys Jakościowa ilustracja ewolucji rozkładu temperatury w pręcie w(t,x) dla przypadku, gdy temperatura na krańcu pręta rozwija się zgodnie z funkcją postaci u 1 (t) (wykres a.) oraz przebiega zgodnie z funkcją postaci u 2 (t) (wykres b).
17 ROZDZIAŁ 1. Wstęp 19 Założono, że dokonano 6 obserwacji w wybranych sześciu kolejnych chwilach t i, i = 1 6, w odległości jednostkowej od końca pręta, notując ciąg sześciu kolejnych temperatur f i. Obserwacje te powtórzono wielokrotnie. Oczywiście, obserwacja zostanie zastąpiona obserwacją wirtualną, to znaczy obliczeniem temperatur f i, zarówno w przypadku, gdy rozwiązanie wprost będzie potrzebne dla treningu sieci, jak i wtedy, gdy zastąpi rzeczywisty pomiar temperatury w doświadczeniu służącym ustaleniu temperatury na krańcu pręta. W praktycznych zastosowaniach sieć jest zawsze trenowana na przykładach teoretycznych. Uzyskane rozwiązanie odwrotne zawsze jest zależne od przyjętego modelu teoretycznego (w tym przypadku zagadnienie (1.1)) i od sposobu jego rozwiązania (w tym przypadku wzór (1.2)). Dla obu przypadków obciążenia termicznego krańca pręta (dla x = 0) obliczenia wprost zostaną wykonane zgodnie ze wzorem (1.2). Zarówno w przypadku całkowania przy użyciu metody Simpsona, jak i w przypadku wykorzystania automatycznych obliczeń symbolicznych, specyfikacja wzoru (1.2) dla każdego z przypadków jest trudna do zacytowania. Na rysunkach powyżej (rys. 1.1a oraz 1b) przedstawiono wykres rozwoju temperatury w czasie, dla odcinka (0,1) (z zerem na krańcu pręta) dla obu przypadków funkcji u(t), dla losowych wartości parametrów A,B,C,D, v oraz t 0, rządzących przebiegiem tych funkcji. Oba rysunki przedstawiają pewne losowe rozwiązanie wprost dla obu przypadków. Rys Schemat rozwiązania zadania odwrotnego metodą aproksymacji relacji odwrotnej. Relacja wprost to relacja opisana wzorem (1.2), dotycząca funkcji, a więc również i punktów, które leżą na wykresach tych funkcji. Relacja odwrotna to relacja pomiędzy elementami wejścia i wyjścia sieci neuronowej, której wagi połączeń są dobrane na podstawie wzorców, z których jeden jest opisany symbolicznie strzałkami krzywoliniowymi. Wszystkie neurony warstwy wewnętrznej są połączone z wszystkimi neuronami warstwy wejściowej i wyjściowej, dla uproszczenia na rysunku przedstawiono tylko niektóre z nich.
18 20 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Zadanie odwrotne polega na znalezieniu przebiegu w czasie temperatury na krańcu pręta (x = 0), znając rozwój temperatury, mierzonej w wybranym punkcie na pręcie (x = 1). Zadanie zostanie rozwiązane w ten sposób, że sztuczna sieć neuronowa (SSN) zostanie tak wytrenowana, aby znanym ciągom { } 1 N f,..., f przyporządkowywała ciągi wartości temperatur w kolejnych chwilach na krańcu pręta ({ u,..., 1 u N }), dla których rozwiązanie równania (1.1) ma w punkcie x = 1, w kolejnych chwilach czasowych, wartości f f : równe { } 1,..., N ({ 1 N} ) { 1 N} f,..., f = u,...,u (1.12) SSN sztuczna sieć neuronowa we wzorze (1.12) jest operatorem, który zastąpił nieznany operator M z równania (1.8.2). SSN będzie numerycznym aproksymatorem M. O sztucznych sieciach neuronowych będzie mowa w rozdziale drugim. Zostanie tam przytoczone twierdzenie, że operator taki jest uniwersalnym aproksymatorem funkcji lub funkcjonału. W tym wypadku SSN jest funkcją, która sześciu zmiennym niezależnym (obserwowane wartości temperatury w punkcie x = 1) przypisuje uporządkowany ciąg sześciu wartości temperatur na krańcu pręta w poszczególnych chwilach czasowych. W tym rozdziale wstępnym przedstawimy jedynie wyniki treningu lub inaczej uczenia SSN. Algorytm uczenia, prowadzący do sytuacji, w której SSN przypisze każdemu elementowi wejścia sieci prawidłowy i pożądany element na wyjściu sieci, zostanie opisany w kolejnym rozdziale. Ilustracja tej procedury (krok 1 oraz krok 2 opisu algorytmu aproksymacji relacji odwrotnej) jest przedstawiona na rys Strzałki oznaczają działanie operatora wprost : w przestrzeni zjawisk fizycznych, przyporządkowującego skutek przyczynie, oraz operatora odwrotnego, realizowanego przez SSN wytrenowaną tak, aby pomierzonym temperaturom w obszarze pręta przypisać temperaturę na brzegu, która jest przyczyną ogrzania wnętrza pręta. Eksperyment numeryczny 1 dobór SSN, jakość aproksymacji Zadanie sformułowane powyżej jest zaskakująco łatwe dla funkcji u 1. Aby przekonać się, że funkcja aproksymowana nie jest zależna od szczególnej postaci brzegowego rozkładu temperatury, przeprowadzono trening dla przypadku, kiedy wśród danych uczących była taka sama liczba rozwiązań problemu wprost (wzór (1.2)), odpowiadających każdej z funkcji: u 1 oraz u 2.
19 ROZDZIAŁ 1. Wstęp 21 Wynik wytrenowania kilku kolejnych wersji SSN przedstawiono na rys wartość wyjściowa SSN SSN_626 SSN_ , , ,5 1 1 uczenie 0,5 uczenie 0 test 0 test , wartość oczekiwana na wyjściu sieci wartość oczekiwana na wyjściu sieci wartość wyjściowa SSN 6 SSN_646 6 SSN_666 wartość wyjściowa SSN uczenie test wartość oczekiwana na wyjściu sieci 1-1 wartość wyjściowa SSN uczenie test wartość oczekiwana na wyjściu sieci Rys Jakość przybliżenia relacji odwrotnej za pomocą sztucznej sieci neuronowej. Sieci oznaczone symbolami SSN_626 i SSN_636 obliczają inne wartości aktywacji neuronów wyjściowych niż te, które były użyte w procesie treningu. W wypadku tych sieci błąd przybliżenia nie mógł być mniejszy, gdyż zbyt mała liczba połączeń wagowych (72 i 108 odpowiednio) nie pozwalała na to. Sieci oznaczone symbolami SSN_646 i SSN_666 pozwalają uzyskać te same wartości aktywacji neuronów wyjściowych, jakie były użyte w procesie uczenia. Wartości te są oczywiście interpretowane jako temperatury na krańcu pręta w kolejnych sześciu chwilach czasu, podczas gdy wartości na wejściu to pomierzone wartości wewnątrz pręta w tych samych, kolejnych chwilach. 1-1 Cztery wykresy zamieszczone na tym rysunku pozwalają ocenić stopień wytrenowania sieci przez porównanie wartości obliczanej na wyjściu sieci z wartością spodziewaną neuronów wyjściowych. Porównanie to przeprowadzono dla przykładów użytych podczas uczenia oraz dla przykładów, które nigdy nie były użyte w procesie treningu sieci (odpowiednio zbiór uczący i zbiór testowy). Na kolejnych wykresach sprawdzających jakość wytrenowania sieci aproksymującej relację odwrotną użyto zbioru walidującego wygenerowanego w całości dla testowania wytrenowanej sieci, działającej w tym wypadku w trybie przywołania (termin angielski recall mode). Wytrenowanie jest doskonałe, jeśli odpowiedzi sieci układają się na prostej y = x (linia zielona na rysunkach). Wytrenowano sieci neuronowe o sześciu neuronach w warstwach wejściowej i wyjściowej. Dla ilustracji procesu doboru właściwej budowy sieci użyto kolejno dwóch, czterech i sześciu neuronów w jednej tylko warstwie ukrytej. Do treningu użyto 1000 wzorców trenujących, wśród nich wybrano 300 wzorców testujących, które nie były używane do minimalizacji całkowitego błędu sieci, a jedynie
20 22 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień do obliczenia błędu popełnianego przez sieć na wzorcach testujących w miarę postępu uczenia (w momencie, gdy błąd ten zaczyna rosnąć, trening powinien być zakończony). Wartości pomierzone temperatury wewnątrz pręta, w kolejnych sześciu chwilach czasu są przypisywane neuronom wejściowym sieci, zaś wartości na wyjściu sieci to wartości temperatury na krańcu pręta w tych samych, kolejnych, chwilach. Widać, że dopiero sieć typu 646 (liczby neuronów w kolejnych warstwach) pozwala na dobre przybliżenie relacji odwrotnej. 3,5 pierwszy neuron wyjściowy SSN_646 wartość wyjściowa SSN 3 2,5 2 1,5 1 oczekiwana odp. SSN-uczenie oczekiwana - test odp. SSN-test 0, numer wzorca uczącego wartość wyjściowa SSN 4,5 4 3,5 3 2,5 2 1,5 1 0,5 szósty neuron wyjściowy SSN_646 oczekiwana odp. SSN-uczenie oczekiwana - test odp. SSN-test ,5 numer wzorca uczącego Rys Porównanie odpowiedzi sieci z oczekiwanymi wartościami na jej wyjściu. Na osi poziomej numer kolejnego wzorca uczącego, na osi pionowej wartość oczekiwana i wartość obliczona przez sieć dla zbioru wzorców użytych do treningu sieci i dla zbioru wzorców testowych. Wykres górny pierwszy neuron warstwy wyjściowej, wykres dolny drugi neuron. Dla pozostałych czterech neuronów wykresy są jakościowo identyczne. Z tysiąca wzorców wybrano tylko kilkadziesiąt dla lepszej czytelności.
21 ROZDZIAŁ 1. Wstęp 23 6,5 zgodność cel-odpowiedź, tryb przypomnienia, SSN_646 wartość wyjściowa SSN 5,5 4,5 3,5 2,5 1,5 0,5-0,5 zbiór weryfikujący wartość oczekiwana na wyjściu sieci Rys Ilustracja stopnia wytrenowania sieci SSN_646 (jakości przybliżenia relacji odwrotnej przez sieć) przez porównanie wartości obliczanej na wyjściu sieci z wartością spodziewaną neuronów wyjściowych. Porównanie to przeprowadzono dla przykładów walidujących, nieużywanych w procesie treningu ani w roli zbioru uczącego, ani testującego. Eksperyment numeryczny 2 aproksymacja relacji odwrotnej W tym przypadku do treningu użyto pierwszej z przedstawionych powyżej funkcji, u 1, będącej iloczynem funkcji potęgowej i wykładniczej (1.10). Założono, że funkcja ta opisuje ewolucję temperatury na krańcu pręta. Jak poprzednio, sieć neuronowa przybliża relację odwrotną dla przypadku, gdy temperatura mierzona jest w sześciu kolejnych chwilach, zawsze tych samych, w odległości x = 1 od początku pręta. Po zadaniu na wejściu wytrenowanej sieci wartości temperatur obserwowanych w kolejnych chwilach, obliczonych z wzoru (1.2), na wyjściu sieci powinny pojawić się wartości temperatur na krańcu pręta w odpowiadających im kolejnych momentach. Jak powyżej, uzyskano bardzo dobre rezultaty treningu, jednak w trybie recall na wejście sieci neuronowej skierowano dane obserwacyjne, dla których ewolucja temperatury na krańcu pręta została opisana zupełnie inną funkcją, kawałkami funkcją liniową u 2, drugą z powyżej opisanych (1.11). Należy podkreślić, że te jakościowo inne dane nie były użyte w procesie treningu sieci. Znakomita jakość odpowiedzi sieci w trybie recall jest przedstawiona na rysunkach 6a. i 7a. Przypadek ten ilustruje fakt, że sieć neuronowa aproksymuje relację pomiędzy dwiema funkcjami, zdefiniowaną wzorem (1.2). Jeśli ta relacja jest przybliżona przez sieć na podstawie odpowiednio bogatego zbioru danych obserwacyjnych, wtedy rozwiązanie zagadnienia odwrotnego za pomocą aproksymacji relacji odwrotnej nie dotyczy tylko jednej szczególnej postaci funkcji obciążenia termicznego, którą należy zidentyfikować. Tak jest w opisywanym przypadku.
22 24 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień a. wartość wyjściowa SSN wartość wyjściowa SSN 4,5 4 3,5 3 2,5 2 1,5 1 0,5 pierwszy neuron wyjściowy SSN_646 oczekiwane odpowiedź SSN numer wzorca uczącego 4,5 4 3,5 3 2,5 2 1,5 1 0,5 pierwszy neuron wyjściowy SSN_666 oczekiwane odpowiedź SSN numer wzorca uczącego b. Rys Porównanie odpowiedzi pierwszego neuronu w warstwie wyjściowej SSN z wartością oczekiwaną: a. do treningu użyto tylko wzorców związanych z funkcją u 1, zaś w trybie przywołania wprowadzono na wejście sieci przykłady związane z funkcją brzegową u 1 i funkcją u 2 (powyżej 500. wzorca u 2 ), b. do treningu użyto tylko wzorców związanych z funkcją u 2, zaś w trybie przywołania wprowadzono na wejście sieci przykłady związane z funkcją obu funkcjami (powyżej 500. wzorca u 2 ). Niepowodzenie aproksymacji, zbyt uboga reprezentacja numeryczna problemu. Oczywiście, jeśli zbiór danych uczących nie jest wystarczająco bogaty, to nawet wtedy, gdy liczba prezentowanych w czasie treningu przykładów jest duża, rozwiązanie zagadnienia odwrotnego nie może się powieść. Ilustruje to kolejny przykład, w którym przybliżenie relacji odwrotnej zostało uzyskane na podstawie uczenia sieci z wykorzystaniem jedynie kawałkami liniowej funkcji czasu u 2, złożonej z dwóch segmentów prostej (1.11). W tym przypadku, sieć działająca w trybie przywołania, dla danych będących rezultatem obciążenia termicznego funkcją u 1 (1.10), nie jest w stanie prawidłowo zidentyfikować ewolucji obciążenia termicznego na krańcu pręta. Ilustrację bardzo złych wyników uczenia
23 ROZDZIAŁ 1. Wstęp 25 sieci przedstawiono na rysunkach 6b. i 7b. Jednak i w tym przypadku nie występują żadne patologiczne elementy procesu obliczeniowego, odpowiedź sieci uzyskujemy zawsze, zawsze też musimy zbadać, czy jest ona prawdziwa czy fałszywa. Większość prac nie poświęca temu istotnemu zagadnieniu sprawdzania wyniku większej uwagi. Takie sprawdzenie to ważny element algorytmu przybliżonego rozwiązania zagadnienia odwrotnego (krok 3). Należy zawsze sprawdzić, czy w ramach modelu, który służył do uczenia sieci, odpowiedź sieci (zidentyfikowana ewolucja temperatury końca pręta) daje obserwowaną ewolucję temperatury w punkcie, w którym jest ona obserwowana. Podkreślić należy również sformułowanie w ramach przyjętego modelu. Aby rozwiązać zagadnienie odwrotne przedstawianą tu metodą, musi zostać przyjęty model, który pozwala na wykonanie obliczeń wprost! Ten model powinien być użyty a posteriori do weryfikacji otrzymanego rozwiązania przybliżonego zagadnienia odwrotnego. wartość wyjściowa SSN a zgodność ce-odpowiedź, SSN_646 weryfikacja x=y wartość oczekiwana na wyjściu sieci zgodność cel_odpowiedź, SSN_666 wartość wyjściowa SSN weryfikacja x=y wartość oczekiwana na wyjściu sieci b. Rys Porównanie odpowiedzi neuronów w warstwie wyjściowej SSN z wartościami oczekiwanymi: a. do treningu użyto tylko wzorców związanych z funkcją u 1, zaś w trybie przypomnienia wprowadzono na wejście sieci przykłady związane z funkcją brzegową u 1 i funkcją u 2, b. do treningu użyto tylko wzorców związanych z funkcją u 2, zaś w trybie przypomnienia wprowadzono na wejście sieci przykłady jak wyżej.
24 26 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień W tym sensie, w dalszym ciągu tej pracy, używany będzie często pewien skrót myślowy, nazywający otrzymane rozwiązanie rzutem obserwacji doświadczalnej na przyjęty model matematyczny. Eksperyment numeryczny 3 jakość aproksymacji relacji odwrotnej Aby zilustrować problem sprawdzenia poprawności rozwiązania odwrotnego wykonano kolejny eksperyment numeryczny. Różnica jakościowa w stosunku do poprzednich przykładów obliczeniowych polega na tym, że podjęto próbę ustalenia parametrów funkcji, opisującej temperaturę na brzegu (na krańcu pręta), a nie jej wartości w kolejnych sześciu chwilach. Wobec założeń, jakie przyjęto o funkcji ewolucji temperatury na brzegu dla u 1 są to cztery parametry, dla u 2 są to dwa parametry. Relacja odwrotna, zbudowana na podstawie wyników obliczeń wprost, będzie przypisywała sześciu wynikom pomiaru temperatury (w sześciu chwilach czasu), wykonanym w odległości x = 1 m od krańca pręta ciąg współczynników we wzorze funkcji opisującej ten nieznany rozkład. Postanowiono wytrenować sieć o budowie 6KL4 (lub 6KL2), o sześciu węzłach (neuronach) wejściowych wartościowanych danymi pomiarowymi (słowo to wzięte jest w cudzysłów, gdyż jak wszędzie w tej pracy pomiary są symulowane numerycznie) i o dwóch warstwach ukrytych, liczących K i L neuronów. Sieć oblicza wartości czterech węzłów wyjściowych, które będą interpretowane jako nieznane parametry funkcji obciążenia brzegu pręta, występujące we wzorze (1.10) lub dwóch węzłów wyjściowych dla parametrów użytych we wzorze (1.11) dla funkcji u 2. Dla funkcji u 1 zadanie to okazało się bardzo trudne. Należało użyć dwóch warstw ukrytych, zawierających odpowiednio 6 i 4 neurony. Wyniki treningu przedstawiają rysunki 1.7a i 1.7b. Na drugim z nich widać poprawę wyników aproksymacji w stosunku do poprzedniego, uzyskaną dzięki lepszemu, racjonalnemu wyborowi czasów obserwacji. Dwa czasy obserwacji były tu znacznie późniejsze niż cztery pierwsze i niż w poprzednim eksperymencie. Jest to jednocześnie ilustracja oczywistej wiedzy, że projekt doświadczenia (wybór momentów pomiaru w tym przypadku) jest bardzo ważny dla dokładności rozwiązania zagadnienia odwrotnego (zawsze, nie tylko metodą przybliżenia relacji odwrotnej!). Rysunki te pokazują, że zadanie ustalenia parametrów funkcji obciążającej termicznie kraniec pręta jest bardzo trudne w przypadku funkcji u 1. Ta trudność nie ma związku z zadaniem odwrotnym. Przebieg funkcji determinuje jej parametry w sposób niemal niejednoznaczny (zmiana różnych parametrów daje podobny efekt na wykresie funkcji). Oczywiście, dla funkcji u 2 taki problem nie występuje.
25 ROZDZIAŁ 1. Wstęp 27 Mimo tych trudności, na rys. 1.8 przedstawiono porównanie wykresu zidentyfikowanego metodą analizy odwrotnej z rzeczywistym wykresem wyjściowym. Przedstawiono trzy różne pary dla trzech różnych czwórek parametrów. Znak tyldy użyty jest dla rezultatów analizy odwrotnej, przedstawionej schematycznie poniżej, wzorem: " wprost" " odwrotne" (,,,, ) { 1,..., 6} {,,, } (,,,, ) u ABCDt f f ABCD u ABCDt (1.13) Znaki wynikania są symbolem zadania wprost i zadania odwrotnego. Ponieważ pierwszy i ostatni element wzoru (1.13) powinny być identyczne: ( ) u ( A,B,C,D,t ) u A,B,C,D,t (1.14) po wprowadzeniu operatora W jako operatora wprost i symbolu operacji sieci neuronowej na wartościach przypisanych jej neuronom wejściowym jako SSN@ równaniami ( ) i ( ): " wprost" { f 1,..., f6} = { w( x = 1,t 1),...,w( x = 1,t6) } = ( A,B,C,D,t) można napisać: wobec tego: " odwrotne" { A, B, C, D } = f1,..., f6} ( SSN ( A,B,C,D,t) ( ) ( ) u A,B,C,D,t (1.15) I. (1.16) We wzorze (1.16) I oznacza operator tożsamościowy. Wzór uzasadnia interpretację działania sztucznej sieci neuronowej (odpowiednio wytrenowanej) jako przybliżenia relacji odwrotnej w stosunku do W operacji rozwiązania zagadnienia początkowo-brzegowego. Wykresy na rys. 1.9 to funkcje u 1 ( ABCDt,,,,) i u( ABCDt,,,,) wykreślone dla losowo wybranych wyników rozwiązania 1 zadania odwrotnego za pomocą sztucznej sieci neuronowej SSN_6644. Wykresy na rys to funkcje u2(, vt0,) t i u2(, vt 0,) t wykreślone dla losowo wybranych wyników rozwiązania zadania odwrotnego za pomocą sztucznej sieci neuronowej SSN_642. To drugie rozwiązanie wymagało mniejszej sieci i jest dokładniejsze z przyczyn, o których wspomniano powyżej.
26 28 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Rys Porównanie funkcji u 1 (t) zadanej na krańcu pręta i rezultatu jej identyfikacji na podstawie pomiarów temperatury w punkcie x = 1 wewnątrz pręta. Funkcje te wykreślone są dla losowo wybranych wyników rozwiązania zadania odwrotnego za pomocą sztucznej sieci neuronowej SSN_6644. Kolorem czarnym zaznaczona jest w każdym z trzech przypadków funkcja zadana. Na osi pionowej temperatura. a. b. Rys. 1.9a. Porównanie funkcji u 2 (t) zadanej na krańcu pręta i rezultatu jej identyfikacji na podstawie pomiarów temperatury w punkcie x = 1 wewnątrz pręta. Funkcje te wykreślone są dla losowo wybranych wyników rozwiązania zadania odwrotnego za pomocą sztucznej sieci neuronowej SSN_642. Kolorem czarnym zaznaczona jest w każdym z trzech przypadków funkcja zadana. Na rys. 1.10b porównanie w 2(v,t,t) i 0 w (v,t,t). Na rys. 1. 9b porównanie 2 0 Dla przybliżenia kawałkami liniowego funkcji u wyznaczonej ciągiem jej wartości w kolejnych chwilach czasu zostało obliczone rozwiązanie w(t,x)(u) zgodnie z wzorem (1.2). Następnie rozwiązanie w punkcie x = 1, czyli w(t,x = 1)(u) porównano z pomierzonymi wartościami f. Na rysunku 10b. porównano funkcje w2(, vt0,) t i w2(, vt 0,) t, gdzie w2 = w2( u2( vt, 0, t)) oblicza się zgodnie z wzorem (1.2). Sprawdzając poprawność, widać wyraźnie, że skonstruowano przybliżenie relacji odwrotnej za pomocą sztucznej sieci neuronowej.
27 ROZDZIAŁ 1. Wstęp 29 Eksperyment numeryczny 4 aproksymacja relacji odwrotnej zależnej od czasu obserwacji W kolejnym eksperymencie sprawdzono numerycznie, że można rozwiązać podobne jak poprzednio zadanie odwrotne, jednak dla przypadku, kiedy pomiary nie są wykonywane w każdym doświadczeniu w tych samych chwilach t 1, t 6. Należy zauważyć, że ustalenie momentów pomiaru nie jest istotnym ograniczeniem. Jeżeli zakładamy, że zadanie wprost jest łatwe do rozwiązania, to łatwo można przygotować trening sieci dla dowolnych ciągów czasowych pomiarów temperatury. Jednak eksperyment numeryczny, w którym czas jest jawnym argumentem zadanej (pomierzonej) funkcji rozkładu temperatury w obszarze jest również ciekawy. Oczywiście, funkcja rozkładu temperatury w obszarze jest zadana przez kilka jej pomierzonych wartości. Ograniczono rozważania do czterech pomiarów w dowolnych chwilach t 1, t 4. Identyfikowaną funkcję obciążenia termicznego na brzegu poszukuje się jednak w ustalonych momentach t 01, t 04. Do rozwiązania tego zadania przyjęto sieć neuronową o następującej budowie: Na wejściu sieci cztery pary neuronów: {czas pomiaru t i, wartość pomiaru f i dla x = 1}, i = 1 4 Na wyjściu sieci cztery wartości zadanej losowo funkcji u 1 (t = t 0i ). Wartości na wejściu są rozwiązaniami wprost problemu przewodzenia ciepła, otrzymane zgodnie z wzorem (1.2). Otrzymano dobre wyniki aproksymacji zależności odwrotnej, trenując sieć jednowarstwową o 6 neuronach w warstwie ukrytej: SSN_864. Wyniki uczenia są przedstawione na rys Błąd obliczony ze wzoru (1.17): N i= 1 ( ( )( ) ) 2 i i i E = w t,x u f (1.17) nie przekroczył 5% średniej wartości mierzonej. Korelacja ustabilizowała się na poziomie 0,98.
28 30 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień wartość wyjściowa SSN 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0-0,5-1 pomiary w dowolnie wybranych momentach SSN_864 uczenie test wartość oczekiwana na wyjściu sieci Rys Cztery wartości funkcji w ustalonych chwilach na krańcu pręta, odczytane dla czterech pomiarów wykonanych w dowolnie wybranych chwilach. Na wejściu sieci podano zmierzone wartości oraz czasy, dla których wykonano pomiary Z powyższych eksperymentów numerycznych wynika, że zadanie odwrotne dla pręta jednorodnego, nieskończonego, ogrzewanego na lewym końcu, udało się rozwiązać z dużą dokładnością, bez konieczności zapisywania sformułowania odwrotnego (1.3).
29 ROZDZIAŁ 2. Zagadnienie odwrotne W pierwszej kolejności będą określone cztery podstawowe pojęcia. Są to: obserwacja, model, relacja wprost oraz relacja odwrotna. Nie wszystkie wielkości fizyczne, które są obecne w opisie zachowania ciała pod wpływem uogólnionych obciążeń są bezpośrednio obserwowalne. Z fundamentalnego punktu widzenia tylko wartości kinematyczne można obserwować bezpośrednio. Są to: kształt obszaru materialnego, przemieszczenia jego punktów, pole temperatury (jeśli ograniczymy się do termomechaniki). Również miejsce obserwacji jest najczęściej wybrane tak, aby obserwacja była technicznie możliwa. Z praktycznego punktu widzenia łatwiej jest obserwować przemieszczenia na powierzchni niż wewnątrz obszaru ciała... Mając to na uwadze przyjmiemy, że obserwacja jest dyskretnym zbiorem wartości tych wielkości, które zostały wybrane do wykonania pomiarów, spośród większego (zwykle) zbioru parametrów, które są używane do opisania zjawiska fizycznego 2.1. Problem wprost i odwzorowanie wprost Będziemy zakładali, że znany model M jest formalnym opisem analizowanego zjawiska fizycznego. Przyjmiemy, że model ten jest zapisany zawsze w postaci zagadnienia początkowo-brzegowego, określonego przez zbiór równań różniczkowych i odpowiadających im warunków brzegowych i początkowych. Podstawowe elementy takiej idealizacji zostaną wymienione poniżej. Obszar próbki lub obszar kontrolny (w sensie takim jak to jest rozumiane w hydraulice) będą interpretowane jako obszar Ω, który wyodrębniony jest z uniwersum fizycznego przez swój brzeg Ω. Punkty obszaru Ω są opisane w przestrzeni euklidesowej za pomocą układu współrzędnych x, obszar ten nie musi być ani skończony, ani jednospójny. Aby zdefiniować problem, który może być badany doświadczalnie, pewne mierzalne pola f i (x) powinny być określone w obszarze Ω (matematyczny charakter tych pól może być, oczywiście, różny:
30 32 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień mogą to być pola skalarne, wektorowe, tensorowe. Dla uproszczenia zakładamy, że f są to pola skalarne, ewentualne składowe wektora lub tensora). Wśród nich niektóre pola nie zależą od rozpatrywanego obszaru materialnego, będziemy nazywać je "obciążeniami uogólnionymi". Niektóre pola mają szczególną interpretację pola te określają właściwości ciała. Są to, na przykład, przewodność cieplna, współczynnik dyfuzji lub inne właściwości materiałowe. W tym wstępnym podrozdziale dla ich oznaczenia użyjemy symbolu k i (x). W dalszej części rozdziału, dla poszczególnych pól właściwości materiałowych (zwykle stałych, gdyż w modelu M ośrodek intencjonalnie będzie przyjmowany jako jednorodny) będą przyjmowane właściwe im oznaczenia. Operator różniczkowy D będzie działać na nieznane pola f, pod warunkiem, że dziedzina jego określoności jest wystarczająco regularna, zaś jego argumenty f(x) są różniczkowalne. Zakładamy, że tak jest i że da się zapisać równanie (2.1): Model M: ( ) ( j ) ( ) ( ) x Ω : D k f x = p x D ( f ( x )) q k ( x ) = Ω k (2.1) W powyższych wzorach oznacza działanie operatora na argumenty. Inaczej zapisany symbol operatora różniczkowania D (inaczej niż D), użyty jest dla operacji różniczkowania na częściach brzegu Ω. Wyniki tej operacji są k równe danym wielkościom q k (x). Przedstawione sformułowanie jest bardzo ogólne. Operator różniczkowy może mieć postać złożoną, zawierającą pochodne cząstkowe wyższych rzędów. Zapisano je w tej formie, dlatego że proponowana metoda wydaje się być wyjątkowo uniwersalna. Dotyczy zarówno zagadnień termo-mechanicznych, jak i problemów transportu ciepła i masy. Bazując na powyższym sformułowaniu, zdefiniujemy rozwiązanie problemu wprost jak następuje: Znaleźć f ( x) = ( k i( x),p( x),qk ( x) ) M takie, że równania (2.1) są spełnione (2.2) W równaniu (2.2) M jest relacją wprost. Jest to reprezentacja modelu M zdefiniowanego w równaniu (2.1) w formie, która pozwala obliczyć pola f dla zadanych warunków brzegowych, dla dowolnych parametrów opisujących ośrodek w modelu M w każdym punkcie x ośrodka. Ta relacja ( wprost ) może być wyrażona w zapisie symbolicznym lub w ujęciu numerycznym. Zapis numeryczny relacji M będzie w tym opracowaniu realizowany przez sformułowania używające
31 ROZDZIAŁ 2. Zagadnienia odwrotne 33 formalizmu Metody Elementów Skończonych lub Metody Różnic Skończonych. Zakładamy, że rozwiązanie wprost (numeryczne lub symboliczne) jest znane. To założenie jest niezbędne dla sformułowania metody rozwiązania zadania odwrotnego Problem odwrotny i odwzorowanie odwrotne Danymi wejściowymi dla problemu wprost są zadane warunki brzegowe, warunki początkowe i zadane pola właściwości materiałowych. Wielkościami szukanymi jest w tym przypadku funkcja f(x). Określimy teraz zbiór danych dla problemu odwrotnego. Wartości wielkości obserwowalnych, pomierzone w wybranych punktach brzegu Ω lub w punktach wewnątrz Ω, stanowią zbiór danych wejściowych dla zagadnienia odwrot- k nego. Ten uporządkowany zbiór wartości oznaczono przez Φ: Φ : φi = φ( i) i = 1...N ( x) k ( x ),p ( x ),q ( x ) φ x (2.3) ( i i i k i ) φ = M (2.4) to (zwykle niewiadome) wielkości, które definiują problem wprost (2.1). Niewiadome pola k i( x),p ( x),q k ( x) spośród wymienionych w (2.4) to wielkości szukane w zagadnieniu odwrotnym. Określimy teraz problem odwrotny, używając relacji wprost (relacji M) następująco: znaleźć k ( ),p ( ),q ( ) N i 1 i x x x takie, że dla danego zbioru obserwacji φi F następująca funkcja j osiąga minimum j min : ( ( ) ( ) ( )) j = M k j xi,p xi,qk xi φi, 2 j = min j min k ( x),p( x),q ( x) i k (2.5) gdzie relacja M dana jest wzorem (2.2), zaś symbol * oznacza miarę odległości, której definicja zależy od natury rozpatrywanego zagadnienia. Przypominamy, że z założenia znamy relację wprost : M jest rozwiązaniem zagadnienia wprost (2.1) (znamy również w tym sensie, że potrafimy łatwo przeprowadzić obliczenia numeryczne, które definiują tę relację w formalizmie MES lub MRS). Oznacza to w szczególności, że możemy łatwo uzyskać potrzebną liczbę rozwiązań próbnych f tr zagadnienia (2.1) dla próbnych wartości
32 34 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień pól k tr ( ), p tr ( ), q tr ( ) i x x x. Rozpatrzmy uporządkowany zbiór pól zadanych w obszarze Ω lub na jego brzegu: Oznaczmy ich próbne wartości: { i ( ), ( ), ( )} u = k x p x q x (2.6) { i ( ) ( ) ( )} u tr = k tr x,p tr x,q tr x (2.7) Generacja sekwencji rozwiązań próbnych u tr jest niezbędna, aby znaleźć minimum wyrażenia (2.5). Istnieje pewien szczególny element tego zbioru, mianowicie k x,p x,q x i ( ) ( ) ( ) który minimalizuje wyrażenie (2.5). Jest to rozwiązanie problemu odwrotnego. Załóżmy, że istnieje relacja M, nazwana dalej relacją odwrotną, która spełnia, wraz z relacją wprost M, poniższą tożsamość: Z powyższego określenia wynika, że: ( ( )) M : f = M M f (2.8) { i ( ), ( ), ( )} ( ) u = k x p x q x M f (2.9) Przedstawiona relacja będzie nazywana relacją odwrotną. Schemat na rys. 2.1 ilustruje powyższe rozważania. sformułowanie zagadnienia M sformułowanie zagadnienia odwrotnego do M nie jest potrzebne Rys W prostokątach, których krawędzie są zaznaczone grubą linią, wymieniono argumenty relacji wprost i relacji odwrotnej oraz wyniki działania tych relacji traktowanych jako pewne operatory (w małych prostokątach). Strzałki oznaczają działanie tych operatorów, opisane w treści rozdziału. Strzałki czarne tworzenie relacji odwrotnej (trening SSN, która ją aproksymuje), strzałki czerwone tworzenie rozwiązania zagadnienia odwrotnego (praca SSN w trybie recall ).
33 ROZDZIAŁ 2. Zagadnienia odwrotne 35 Trudno jest sprecyzować ogólnie, jaka powinna być forma matematyczna relacji odwrotnej M oraz relacji wprost M. W rozdziale pierwszym, w prostym przykładzie ilustrującym, przedstawiono obie relacje w formie symbolicznej. Można również wyobrazić sobie inne przykłady takich relacji. Przypuśćmy, że zagadnienie brzegowe (2.1) zapisano za pomocą formalizmu MES. Zgodnie z tym, wektor rozwiązania, oznaczany dalej jako f, ma następującą formę: 1 { } ( ( )) ( ( ) ( )) { } ( ( ) ( ) ( )) f = K k x i F p x,q x i = M k x i,p x,q x (2.10) i gdzie K jest macierzą sztywności, w której uwzględniono właściwości materiału k i. Podobnie wektor prawej strony F zebrano, biorąc pod uwagę obciążenia q k zadane na k rozłącznych częściach brzegu Ω oraz siły masowe p w obszarze Ω. Oczywiście pomierzone dane wynikają z tego rozwiązania: ( K k x i { F p x,q x i }) ( k i( x φ i),p( x i),qi( x i) ) 1 { φ} ( ( )) ( ( ) ( )) = = M (2.11) x= xi Jeśli k i, q k oraz p zdefiniowane są przez ich wartości w węzłach siatki elementów skończonych, można napisać: w szczególności: { k} { p} { q} = [ M]{ f} = M ( f ( x) ) (2.12) { k } { p } = Mφ { φ} = M ( ) x x φ φ = i (2.13) { q } Niestety, bezpośrednio i w przypadku ogólnym nie da się skonstruować macierzy M w formule (2.11). Proponowana metoda polega na skonstruowaniu przybliżenia numerycznego macierzy M, oznaczonej symbolem M φ, dysponując wystarczająco bogatym zbiorem próbnych rozwiązań.
34 36 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień 2.3. Rozwiązania zagadnienia odwrotnego przez aproksymację relacji odwrotnej Mając do dyspozycji relację wprost w postaci wzoru symbolicznego lub formuły (procedury) numerycznej, możemy zbudować przybliżenie relacji odwrotnej, jeśli tylko mamy wystarczająco dużą liczbę przykładów działania relacji odwrotnej. Przykłady te to pary: {{wartości parametrów opisujących właściwości materiałowe i wartości obciążeń uogólnionych} {wartości rozwiązania zadania wprost, otrzymane dla tych danych w punktach pomiarowych }} (2.14) Eksperyment (w laboratorium lub in situ ) Pomiar danych obserwowalnych, arametry pro cesu itp Model numeryczny eksperymentu: roblem wprost u dane obserwowalne, pomierzone w eksperymencie parametrów ych arametrów procesu itp SSN Warstwa wy odpowiednie próbnych parametrów wprost Trening Sztuc tucznej Sieci N relacji odwrotnej sieci: pomierzone w obserwowalne Nauczona SSN sieci: pomierzonym, parametrów ych arametrów procesu itp Rys Na rysunku tym przedstawiono w pogrubionych ramkach rozwiązanie wprost i rozwiązanie problemu odwrotnego w ramach schematu opisanego powyżej.
35 ROZDZIAŁ 2. Zagadnienia odwrotne 37 W niniejszym opracowaniu przybliżenie relacji odwrotnej będzie uzyskane za pomocą sztucznych sieci neuronowych. Zapisem matematycznym relacji Mφ ( φ ) będzie warstwowa sieć neuronowa wytrenowana na odpowiednio bogatym zbiorze obserwacji. Na wejściu sieci będą podawane wartości pomiarów wielkości obserwowalnych w wybranych punktach, na wyjściu otrzyma się wartości parametrów definiujących problem wprost (2.1), czyli właściwości materiału oraz uogólnione obciążenia. Celem pracy jest przedstawienie przykładów takiego rozwiązania, zorientowanego na zastosowanie w zagadnieniach inżynierskich przy użyciu narzędzi do tego skonstruowanych lub dostępnego na rynku oprogramowania, odpowiednio zaadaptowanego do proponowanej procedury.
36 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego Sztuczne sieci neuronowe (SSN) doczekały się już wielu opracowań monograficznych oraz podręcznikowych: [1], [3], [21], [29], [181], [184], [199]. Opisano wiele ich zastosowań do rozwiązywania tradycyjnych problemów technicznych, zagadnień optymalizacji, analizy i obróbki sygnału oraz innych. W książce tej przedstawiono jedno tylko zastosowanie sztucznej sieci neuronowej. Jest to zastosowanie bardzo dobrze znane od początku rozwoju sztucznych sieci neuronowych: użycie sztucznych sieci neuronowych do rozwiązywania zagadnień odwrotnych. Podobnie, tylko jeden typ sztucznej sieci neuronowej będzie używany w tym opracowaniu. Będzie to sieć neuronowa o budowie warstwowej, z wyróżnionymi warstwami neuronów: wyjściową i wejściową oraz z pewną ilością warstw ukrytych, na stan których użytkownik tej sieci nie ma bezpośredniego wpływu. Sztuczna sieć neuronowa jest pewnym operatorem, który transformuje sygnał dyskretny, przypisany neuronom warstwy wejściowej sieci, w sygnał wyjściowy kodowany przez wartości aktywacji neuronów warstwy wyjściowej. Zazwyczaj zagadnienie określenia parametrów sieci jest związane z próbą uzyskania takiej transformacji, w której obraz sygnału wejściowego na wyjściu sieci przybliża pewien sygnał znany, zadany (w literaturze polskiej używa się powszechnie terminu angielskiego target ). Sygnał dyskretny, termin naturalny dla SSN, będzie w tej pracy prawie zawsze rozumiany jako ciąg liczb rzeczywistych wartości przyjmowanych przez kolejne neurony. W rozdziale tym przedstawiono praktyczne metody doboru elementów struktury sztucznych sieci neuronowych. Zasady obliczania parametrów sieci: wartości wag połączeń oraz biasów zostaną wyprowadzone z naturalnego warunku, aby błąd odpowiedzi sieci, czyli różnica pomiędzy obrazem sygnału wejściowego i zadanym sygnałem aproksymowanym przez sieć (target) był najmniejszy. Metoda wstecznej propagacji błędów zostanie przedstawiona na przykładzie perceptronu wielowarstwowego i zilustrowana grafem dołączonym (opisanym w [139] i używanym
37 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 39 w programach obliczeniowych autora tej pracy). Sieci aproksymujące funkcję i funkcjonał są oczywistymi szczególnymi przypadkami perceptronu wielowarstwowego. Ta część rozdziału wyczerpie problem treningu lub uczenia sieci neuronowej w zakresie potrzebnym w dalszych rozdziałach. Liczbę neuronów ukrytych w sieciach i ich rozkład w warstwach ukrytych należy przyjmować na podstawie analizy innych własności aproksymacji, takich jak zdolność do interpolacji bądź uogólniania przybliżanej zależności funkcjonalnej. W rozdziale tym zostaną krótko przedstawione podstawowe, znane z literatury, metody kształtowania topologii sieci oraz metoda używana przez autora tej pracy. Problem racjonalnego kształtowania sieci neuronowej jest prawdopodobnie jednym z najtrudniejszych w praktycznych zastosowaniach. W dalszych rozdziałach zostaną przedstawione i przedyskutowane przykłady praktycznego konstruowania sieci Elementy budowy operatora neuropodobnego Podstawowe określenia Wobec tego, że analizowane w niniejszej pracy zastosowania sztucznych sieci neuronowych są bardzo odległe od ich biologicznej i cybernetycznej genezy, stosowanie terminologii związanej z ich neurofizjologiczną interpretacją może się wydać nienaturalne. Dlatego też zdecydowano się zastąpić (lub używać równolegle) nazwy podstawowych elementów sztucznych sieci neuronowych terminami nasuwającymi skojarzenia z dziedziny inżynierii. W dalszych rozdziałach sztuczne sieci neuronowe (SNN) określać się będzie terminem sieci neuropodobne (SN). Termin węzeł sieci lub krótko węzeł będzie używany jako synonim określenia neuron. Jedynym synonimem dla synapsy, dendrytu lub aksonu będzie połączenie międzywęzłowe lub w skrócie połączenie. Symbolicznie elementy te są przedstawione na rysunku 1.1. Sztucznym neuronem (węzłem sieci neuropodobnej) będziemy nazywać operator N, który uporządkowanemu zbiorowi m liczb rzeczywistych {i} m, zwanemu sygnałem wejściowym węzła, przyporządkowuje uporządkowany zbiór n liczb rzeczywistych {o} n (zwany sygnałem wyjściowym węzła). Przyporządkowanie to jest superpozycją trzech funkcji: funkcji wejścia neuronu I, funkcji aktywacji neuronu g, funkcji wyjścia neuronu (węzła) U: n ( ) { } = { } (3.1) m N : R R ; N i o
38 40 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień We wzorze (3.1) oznaczono działanie operatora na operand. Znak ten będzie używany wtedy, gdy opis działania operatora jest złożony, zaś nawiasy użyte są do zaznaczenia elementów budowy tego operatora. Funkcja wejścia I przyporządkowuje sygnałowi wejściowemu neuronu pewien skalar t. W tej pracy wystąpią tylko dwa rodzaje funkcji wejścia. Do pierwszego z nich należy, najczęściej spotykana w zastosowaniach sieci neuronowych, funkcja kumulująca I Σ. Drugi rodzaj, występujący rzadziej w literaturze, to iloczyn wyrazów składowych sygnału wejściowego I Π : m I : R R; t i Σ m = k k = 1 m m I Π :R R; t i k k = 1 = (3.2) W niektórych sformułowaniach (np. wg standardu Stuttgart Neural Network Simulator SNNS [341]) każde wejście neuronu jest scharakteryzowane pewną stałą addytywną zwaną biasem. Jest ona odpowiednikiem progu fizjologicznego w neuronie rzeczywistym. W dalszym ciągu pracy, bez zmiany roli tej stałej, przypisywać się ją będzie połączeniu międzywęzłowemu, a nie wejściu, dlatego też bias nie wystąpił w zapisie (3.2). Zarówno w tym rozdziale wprowadzającym, jak i w całej pracy nie będzie potrzeby użycia pojęcia tak zwanych bramek (gates), będących dodatkową strukturą łączoną logicznie z wejściem neuronu (występującą w standardzie SNNS [341]). Pominięto, zatem, tę strukturę w powyższym opisie neuronu. Funkcja aktywacji g działa z R w pewien przedział z R i oblicza aktywację neuronu a. Wyróżnia się trzy podstawowe rodzaje funkcji aktywacji: unipolarną g u, bipolarną g b i liniową. u u u g : R [0,1] lub g : R (0,1) a= g ( t) (3.3) b b b g : R [ 1,1] lub g : R ( 1,1) a= g ( t) (3.4) Funkcje g u i g b są monotoniczne. Zazwyczaj stosuje się tu funkcje progowe, funkcję logistyczną lub tangens hiperboliczny. Sieć, dla której funkcją aktywacji jest funkcja dzwonowa, nosi nazwę sieci radialnej. Funkcja wejścia U przyporządkowuje skalarnej wartości aktywacji neuronu sygnał wyjściowy {o} n. W tej pracy wystąpi tylko jeden rodzaj funkcji wyjścia: U : R R n ; o = a i = 1...n (3.5) i Zbiór różnych sztucznych neuronów tworzy strukturę (sieć) neuronową w ten sposób, że każda składowa sygnału wejściowego i k każdego neuronu jest
39 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 41 funkcją pewnej składowej sygnału wyjściowego o j pewnego (niekoniecznie innego) neuronu. W uproszczeniu będziemy mówić, że sygnał wyjściowy z każdego neuronu jest przesyłany do innego neuronu (stanowi składową jego sygnału wejściowego), przy czym operacji transmisji towarzyszy pewna modyfikacja tego sygnału. Neurony N i w sieci oznaczonej symbolem NN są oznaczane kolejnymi liczbami naturalnymi i. Połączeniem synaptycznym Φ ij (lub w skrócie połączeniem) będziemy nazywać funkcję, której argumentem jest wartość składowej i sygnału wyjściowego pewnego neuronu, tj. o i, zaś jej wartość Φ ij (o i ) jest przypisana składowej j sygnału wejściowego, pewnego, niekoniecznie innego, neuronu należącego do sieci. Połączeniem synaptycznym wstecz Φ ij (lub w skrócie połączeniem wstecz) będziemy nazywać funkcję, której argumentem jest wartość składowej i sygnału wejściowego pewnego neuronu, tj. i i, zaś jej wartość Φ ij (i i ) przypisana jest składowej j sygnału wyjściowego, pewnego, niekoniecznie innego, neuronu należącego do sieci. Każdej parze (wyjście neuronu i, wejście neuronu j) utworzonej dla wszystkich neuronów w sieci jest przypisane połączenie Φ ij. W ciągu całej pracy przyjmuje się następującą konwencję: numery wejść neuronu odpowiadają numerowi neuronu, z którego pochodzi przyjmowany sygnał. W realizacji numerycznej, a także w definicji sieci, opisuje to tablica połączeń podobna do macierzy związków międzywęzłowych, na przykład w metodzie elementów skończonych. Wiersze tej tablicy to numery neuronów, każda kolumna zawiera numer neuronu, z którego pochodzi sygnał. Wobec tego indeksy funkcji połączenia synaptycznego oznaczają również: pierwszy indeks numer neuronu, który odbiera sygnał; drugi indeks numer neuronu, z którego sygnał pochodzi. Można więc rozumieć, że w sieci neuronowej, każdej parze neuronów (N i, N j ) jest przypisane połączenie Φ ij. Elementy Φ ii, na głównej przekątnej macierzy połączeń, to połączenia zwrotne. Najbardziej typowym połączeniem używanym w sieciach neuronowych jest połączenie liniowe (określane często, w połączeniu z unipolarną i bipolarną, monotoniczną funkcją aktywacji, jako ridge construction): Niech wartość sygnału na wyjściu neuronu j wynosi x j. Wartość sygnału wejściowego nr j dla neuronu nr i jest wówczas następująca:
40 42 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień ii = wx ij j +θ ik x lub K ii = wx ij j +θ i (3.6) We wzorze (3.6) symbol θ i oznacza bias, współczynniki w ij są nazywane wagami połączeń. W zapisie zastosowano konwencję sumacyjną, zakładającą sumowanie po powtarzającym się indeksie, o ile nie jest on ujęty w nawiasy. Postać pierwszego wzoru (3.6) jest podyktowana sposobem realizacji dodawania stałej θ i w modelu numerycznym sieci neuronowej. Ilustruje to rys. 1.2, na którym pokazano dodatkowy neuron (o wyróżnionym numerze K) i o stałej wartości sygnału wyjściowego x K równej jedności. Biasy są wagami połączeń wejść neuronów z tym dodatkowym wyjściem. Drugi wzór (3.6) jest prostszy, sugeruje on jednak, że czynnik addytywny θ i jest własnością neuronu i a nie połączenia ij. Połączenie (3.6) jest funkcją liniową sygnału wyjściowego. Tablica w ij zwana jest tablicą wag połączeń. Całkowity sygnał wejściowy neuronu nr i z kumulatywną funkcją wejścia wynosi: i ( ) θ (3.7) t= i= wx + i ij j i i Neuronem wejściowym sieci neuropodobnej będziemy nazywać neuron, którego sygnał wejściowy ma jedną składową, która nie pochodzi od żadnego innego neuronu należącego do sieci. Pochodzi ona z zewnątrz sieci, jest elementem jej środowiska zewnętrznego, inaczej mówiąc jest zewnętrznym sygnałem wejściowym neuronu. Zwraca się uwagę, że inne składowe sygnału wejściowego mogą pochodzić od innych neuronów należących do sieci. Neuronem wyjściowym sieci neuropodobnej będziemy nazywać neuron, którego sygnał wyjściowy ma jedną składową, która nie jest argumentem żadnego połączenia z żadnym innym neuronem sieci. Jest to składowa sygnału kierowana do środowiska zewnętrznego sieci, stanowi ona zewnętrzny sygnał wyjściowy. Sygnałem wejściowym sieci {inn} i sygnałem wyjściowym sieci {onn} nazywamy zbiór zewnętrznych sygnałów wejściowych i odpowiednio wyjściowych, wejściowych i wyjściowych neuronów sieci. Są to odpowiednie ciągi liczb rzeczywistych, przypisane fizycznie lub logicznie odpowiednim neuronom. Z uwagi na szczególny układ połączeń, wyróżnia się pewne podzbiory zbioru neuronów. W sieciach typu perceptron podzbiory te nazywa się warstwami. Wyróżnia się tu warstwę wejściową i wyjściową (złożone odpowiednio z neuronów wejściowych i wyjściowych) oraz warstwy ukryte, których nazwa pochodzi stąd, że nie są ani wejściowe ani wyjściowe, natomiast ich cechą definiującą jest to, że neurony wewnątrz warstwy nie są ze sobą połączone.
41 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 43 Organizacja wewnętrzna sieci, zdefiniowana przez układ połączeń, nazywana będzie architekturą, budową, strukturą bądź topologią sieci. Nie jest ona dowolna. W wielu przypadkach, w zastosowaniach praktycznych, jest narzucona przez interpretację fizyczną elementów sieci. Struktura sieci, liczba i wielkość warstw ukrytych wpływają na jakość transformacji sygnału i są podstawowymi (wśród innych) elementami budowy sieci, kształtowanymi w trakcie projektowania sieci Działanie sztucznej sieci neuronowej Sztuczna sieć neuronowa przekształca sygnał wejściowy w wyjściowy. W procesie tym biorą udział neurony i połączenia składające się na tę sieć. Powyżej zdefiniowano, w jaki sposób pojedynczy neuron przekształca otrzymany sygnał. Pozostaje określić, w jakiej kolejności przekształcenia te są wykonywane przez poszczególne neurony w sieci. Określenie algorytmu działania sieci polega na ustaleniu porządku w zbiorze operacji wykonywanych przez neurony i połączenia w sieci. Nie jest, bowiem, oczywiste czy pewne transformacje, w których biorą udział pewne wskazane neurony i połączenia, mają być wykonane przed, po czy też jednocześnie z innymi, realizowanymi przez inne elementy sieci. Powinno być to elementem definicji sieci. Ponieważ nigdzie w pracy nie będzie analizowany analogowy model sztucznej sieci neuronowej 1, czas fizyczny nie odegra w definicji algorytmu żadnej roli. Sieci neuronowe będą realizowane zawsze jako program komputerowy. Aby zdefiniować działanie sieci, wystarczy ustalić względną chronologię zachodzących w niej procesów cząstkowych. Elementarny proces cząstkowy, wykonywany przez element sieci (połączenie lub neuron), będziemy nazywali obliczeniem. Przedmiotem obliczenia jest wartość przekształcanego przez sieć sygnału. Wykonanie obliczenia zostanie przypisane elementowi sieci, który aktualnie przetwarza dany sygnał. Wykonanie obliczenia polega na ustaleniu wartości sygnału, zgodnie z wzorami (3.2)-(3.7). Aby zmniejszyć liczbę niezależnych procesów, których kolejność trzeba ustalić projektując działanie sieci, przyjęto następujące konwencje upraszczające: Zmiana sygnału wyjściowego dowolnego neuronu jest przekazywana w tym samym momencie na wejścia wszystkich neuronów odbierających sygnał z tego neuronu. 1 Analogowe modele SSN są wykonywane jako odpowiednio zaprojektowane obwody elektryczne. Podejście takie jest typowe dla większości klasycznych prac publikowanych w czasopismach stowarzyszenia IEEE, na przykład [29][48][209] i innych.
42 44 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Oznacza to, że połączenie nie ma niezależnego wpływu na kolejność zdarzeń w sieci. Grupa (zbiór) neuronów oblicza swój sygnał wyjściowy jednocześnie, w następujący sposób: wartości początkowe sygnału wejściowego dla kroku k są ustalone dla wszystkich neuronów ze zbioru, wszystkie neurony obliczają swoją aktywację, wszystkie neurony obliczają swoje sygnały wyjściowe dla kroku k, zmieniając w tym momencie wartości sygnałów wejściowych innych neuronów, dzięki aktywności połączeń. Są to początkowe sygnały wejściowe dla kroku k + 1. Algorytm działania sieci, w rozumieniu, jakie mu przypisano w tej pracy, to ciąg zdarzeń składający się na transmisję sygnału wejściowego sieci w jej sygnał wyjściowy. Nie ma on nic wspólnego z procesem uczenia sieci, który rządzi się własnym algorytmem uczenia sieci (opracowano liczne, bardzo rożne algorytmy uczenia sieci). Niech będzie określony uporządkowany zbiór K rozłącznych podzbiorów K i zawierających neurony sieci: { 1 p q n} p { i j} K= K...K,K...K ; K = N...N ; pq, K K = ; n p= 1 K p = NN p q (3.8) Algorytm działania sieci neuronowej definiuje się następująco: wszystkie neurony wejściowe obliczają swój sygnał wyjściowy, w każdym zbiorze K q wszystkie neurony obliczają swój sygnał wyjściowy jednocześnie ( równolegle ), jeśli neuron N i należy do zbioru K q, to oblicza on swój sygnał wyjściowy dopiero wtedy, gdy każdy neuron N j ze zbioru K q-1 zakończył obliczenia swojego sygnału wyjściowego dokładnie jeden raz,
43 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 45 kryterium zatrzymania algorytmu jest uzyskanie sygnału wyjściowego, który przy każdym następnym powtórzeniu ostatniego kroku będzie różnił się mniej niż o zadaną tolerancję δ od ostatniej jego wartości (sposób obliczania różnicy zależy od rodzaju sieci). W sieci typu perceptron zbiory K i to warstwy numerowane w kolejności od warstwy wejściowej do wyjściowej. Kolejność wykonywania obliczeń jest tu określona topologią sieci. Zauważmy, że ponieważ neurony wewnątrz warstwy perceptronu nie są ze sobą wzajemnie połączone nie ma potrzeby sprawdzać, czy obliczenie ich sygnałów wyjściowych odbyło się tylko jeden raz. Opisując działanie sztucznej sieci neuronowej należy zwrócić uwagę na dwie ważne własności, wspólne dla wszystkich operatorów neuropodobnych. Są to równoległość i lokalność przetwarzania danych. Elementy sieci, takie jak połączenia lub neurony transformują sygnał lokalnie, to znaczy, aby mogły obliczyć wartość wyjściową muszą znać jedynie swoją, lokalną jego wartość wejściową. Neuron oblicza swój sygnał wyjściowy na podstawie swojego sygnału wejściowego i lokalnych, właściwych mu parametrów określających jego działanie. Połączenie może zmieniać swoje własności znając aktywacje neuronów, które łączy. Elementy te mogą więc przetwarzać dane równolegle z innymi elementami sieci. Jeśli fizycznie są to oddzielne procesory, to równoległość oznacza jednoczesność. Jednoczesność obliczeń jest zatem wpisana w naturę sztucznej sieci neuronowej. Jeśli sieć neuronowa jest zrealizowana fizycznie, jako program komputerowy na komputerze sekwencyjnym, to oczywiście sformułowanie jednoczesny ma znaczenie jedynie logiczne i trwa podczas pewnego przedziału czasowego. Jeśli jednak model sieci neuronowej jest zrealizowany na komputerze wieloprocesorowym, to transformacja sygnału może być bardzo szybka. Dla potrzeb algorytmów neuropodobnych produkuje się specjalne komputery o ogromnej liczbie procesorów (grained computers, neurocomputers) wykonujących równolegle proste obliczenia, właściwe dla pojedynczego neuronu lub indywidualnego połączenia.
44 46 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Warstwa wejściowa Warstwa ukryta Warstwa wyjściowa We 1 a we1 P f a 1 S g a wy1 Wy 1 We 2 We 3 a we2 a we3 Synapsa (połączenie) S P g g Połączenia zwrotne (rekursywne) a 2 a 3 a wy2 Wy 2 Neurony (węzły) Wartość aktywacji neuronu Funkcja aktywacji neuronu Funkcja wejścia neuronu Rys Schemat operatora neuropodobnego. Neurony (węzły) oznaczono dwoma rodzajami okręgów: zacienione węzeł wewnętrzny i niezacienione węzły wejściowe i wyjściowe. Połączenia oznaczono strzałkami. Groty strzałek odpowiadają wejściom neuronów. Oczywiście, komputer klasyczny realizuje procesy równoległe sekwencyjnie, wobec tego oszczędność czasu pracy związana ze specyfiką algorytmu neuropodobnego nie może tu być uzyskana. Zagadnienie realnej, sprzętowej równoległości przetwarzania danych nie jest w tej pracy analizowane, w żadnym z przykładów nie będzie potrzeby przyśpieszania pracy sieci, gdyż sieci te nie będą nigdy zawierały wielkiej liczby neuronów. Sieć neuronowa NN zawierająca M neuronów jest określona trójką następujących elementów: { i ( i, i, i ); ij; ( )} NN = N I g U Φ A Κ i, j = 1,...,M (3.9) Działając na sygnał wejściowy {i}, NN generuje sygnał wyjściowy {o}: q { } { } p q NN :R R ; i o p q = (3.10)
45 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 47 Zastosowanie praktyczne operatora neuropodobnego oznacza znalezienie takiej budowy sieci, że sygnał wejściowy i wyjściowy mają określoną interpretację matematyczną lub fizyczną Sieć neuronowa jako aproksymator funkcji wielu zmiennych W niniejszym podrozdziale przedstawiono sieć neuronową warstwową jako interpretację graficzną i algorytmiczną pewnego wzoru aproksymacyjnego. Funkcja SSN jako aproksymatora pewnych obiektów matematycznych jest fundamentalna dla zastosowań sieci neuronowych do rozwiązania zagadnienia odwrotnego. Wybór rodzaju aproksymacji danych lub szukanych elementów przestrzeni funkcyjnych, dla których sformułowano zagadnienie początkowo-brzegowe, jest podstawowym krokiem na drodze do rozwiązania problemu inżynierskiego. Na przykład aproksymacja przestrzeni funkcyjnych Sobolewa za pomocą wielomianów bazowych, określonych na małych nośnikach zwartych, jest podstawą metody elementów skończonych i decyduje o jej formalizmie. W podobny sposób użycie sztucznych sieci neuronowych może jakościowo zmienić sposób rozwiązania zagadnienia. Poniżej krótko podsumowano ogólne zasady stosowania sieci neuronowej do aproksymacji takich obiektów matematycznych, jak funkcja, funkcjonał i operator. Wszystkie przytoczone tu twierdzenia wzięte są z prac [25] i [26]. Wybrane ujęcie teoretyczne jest atrakcyjne z punktu widzenia inżyniera, ponieważ w jednolity sposób traktuje trzy podstawowe obiekty matematyczne: funkcję, funkcjonał i operator. Sieć aproksymująca, jak wynika z [26], jest prosta (jednowarstwowa), zaś funkcje aktywacji mogą być wybrane z bardzo szerokiej klasy funkcji Sformułowanie twierdzenia o aproksymacji funkcji Definicja uniwersalnego aproksymatora Niech A będzie zwartym podzbiorem w przestrzeni R n, C(A,n,m) to zbiór funkcji ciągłych odwzorowujących R n w R m. Zbiór funkcji F jest uniwersalnym aproksymatorem C, jeśli g C( Anm,, ) ε > 0 f F: x A f( x) g( x) < ε (3.11) gdzie ε jest dowolną, małą tolerancją.
46 48 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Twierdzenie (3.1) o aproksymacji funkcji wielu zmiennych Załóżmy, że aproksymowana funkcja f jest elementem zbioru zwartego A z przestrzeni funkcji ciągłych n zmiennych C(K), gdzie K jest zbiorem zwartym w R n. Niech funkcja jednej zmiennej g należy do pewnej dopuszczalnej klasy funkcji oznaczonej symbolem TW (funkcje Taubera-Wienera) 2. W [25] dowodzi się, że istnieje liczba naturalna M, taka że zbiór M liczb rzeczywistych θ i oraz M n-wymiarowych wektorów w i niezależnych od f definiuje formułę aproksymacyjną (3.12): g (TW ) f CK ( ) M f( x) c ( f) g( w x+ θ ) < ε (3.12) i i i i= 1 Występujące w tej formule stałe współczynniki c i (f) zależą od f i dla odpowiednio wybranych M, θ i oraz w i można je dobrać tak, aby dokładność aproksymacji była mniejsza od dowolnie małej dodatniej tolerancji ε. Ponadto współczynniki c i (f) są ciągłymi, liniowymi funkcjonałami określonymi na A. Występująca w powyższym twierdzeniu klasa funkcji Tauber-Wienera (TW) jest zdefiniowana następująco [25]: Jeśli funkcja dowolna jednej zmiennej g: R R ma tę własność, że jej liniowe kombinacje postaci (3.13) są gęste w zbiorze funkcji ciągłych na odcinku [a, b], wtedy g zwana jest TW-funkcją, tj. M cg i ( λix+ θ i) λi R; θ i R; ci R; i = 1,...,M (3.13) i= 1 Z punktu widzenia zastosowań do konstrukcji sieci neuronowych ważne jest również następujące twierdzenie [39]: Każda ograniczona funkcja sigmoidalna należy do klasy TW-funkcji. Termin funkcja sigmoidalna oznacza w [39] funkcję f: R R, dla której granica przy x - jest równa 0, zaś granica przy x jest równa 1, tzn.: lim f ( x) = 0 lim f ( x) = 1 (3.14) x x Funkcje o takiej własności są najczęściej stosowanymi funkcjami aktywacji neuronu. Wobec tego twierdzenie o aproksymacji funkcji ważne jest dla szerokiej grupy stosowanych w praktyce sieci neuronowych. Co więcej, zgodnie z tym twierdzeniem, klasa dopuszczalnych funkcji przejścia jest dużo szersza niż powszechnie stosowana. W dowodzie twierdzenia o aproksymacji, przedstawionym 2 funkcje Taubera-Wienera; terminu tego używają autorzy pracy [39], tam też można znaleźć odsyłacze do artykułów, zawierających więcej informacji o tej klasie funkcji.
47 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 49 w [25], nie wymaga się bowiem od f ani monotoniczności, ani ciągłości. Podstawowym wymaganiem jest tutaj jej ograniczoność. Jednocześnie trzeba zauważyć, że termin funkcja sigmoidalna jest, wobec tego, użyty w znaczeniu nieco innym niż zwyczajowe, w którym monotoniczność jest istotną cechą funkcji należących do tej klasy. W pracy [39] podano jeszcze inne warunki potrzebne do tego, aby funkcja należała do klasy TW, użyteczne z punktu widzenia techniki dowodzenia przedstawionych twierdzeń, lecz nie mające w tej pracy większego znaczenia w zastosowaniu do budowy sieci neuronowych. Wzór aproksymacyjny (3.12) łatwo jest zinterpretować graficznie w formie schematu obliczeniowego. Taką interpretację przedstawiono na rys Wejście x 1 x k x n 1 θν ω 11ω1k ω Νk θ 1 θ 2 ω 1n ω Νn ω Ν1 Σ 1 Σ 2 Σ i Σ N g 1 g 2 g i g N Rys Schemat sieci neuronowej z warstwami ukrytymi jako ilustracja formuły aproksymacyjnej (3.12). Skrajne lewe węzły ilustrują zmienne niezależne, które występują we wzorze (3.12) w nawiasie otaczającym argument funkcji g. Kwadraty zawierają wynik działania funkcji aktywacji g na jej argument wynik sumowania, zilustrowanego przez okrąg. Biasy przedstawione zostały tak, jakby były one jeszcze jedną składową w wektorach wag, odpowiadającą dodatkowej stałej, jednostkowej składowej, dołączonej sztucznie do wektora zmiennych niezależnych. Węzły grafu ilustrują dane wejściowe, wyniki pośrednie oraz wartości wyjściowe. Krawędzie grafu niosą informację charakteryzującą operację wykonaną na przetwarzanym sygnale (rodzaj funkcji aktywacji, ewentualnie jej parametry, wartości wag). W ten sposób formuła aproksymacyjna (3.12) wyznacza pewien graf, znany w praktycznych zastosowaniach operatorów neuropodobnych jako sieć jednokierunkowa z jedną warstwą ukrytą. g 1 ( ) g 2 ( ) g i ( ) g N ( ) c 1 (f) c 2 (f) c i (f) c N (f) Σ f(x)
48 50 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Przedstawienie w tej pracy dowodu formalnego cytowanych twierdzeń aproksymacyjnych nie jest możliwe ani celowe. Autorzy dowodu przedstawionego w pracy [39] posługują się aparatem matematycznym analizy funkcjonalnej, uogólnionej transformacji Fouriera, dystrybucji i dystrybucji temperowanych. Można jednak skomentować krótko sposób jego przeprowadzenia. Już w twierdzeniu 1.1 o aproksymacji funkcji przygotowano jego strukturę tak, aby móc zbudować dwa pozostałe twierdzenia, przez wyrażenie współczynników c jako funkcjonałów liniowych przybliżanej funkcji. Jest to naturalne choćby przez podobieństwo do aproksymacji Fouriera. O pozostałych współczynnikach operatora aproksymującego nie mówi się nic w tym twierdzeniu, gdyż nie jest to konieczne z punktu widzenia kolejnych dwóch twierdzeń. Ponadto metody poszukiwania wag i biasów (tak trzeba bowiem interpretować współczynniki, które w tym twierdzeniu występują) znane są z praktycznego zastosowania operatorów neuropodobnych, wystarczy więc stwierdzić, że da się takie elementy dobrać. Narzędzi analizy funkcjonalnej używa się ponownie, aby udowodnić twierdzenie 1.2 o aproksymacji funkcjonału. Twierdzenie 1.3 o aproksymacji operatora jest już prostym złożeniem dwóch poprzednich. Wystarczy potraktować każdą wartość funkcji należącej do obrazu przybliżanego operatora jako funkcjonał określony na funkcji należącej do dziedziny operatora. Widać to w strukturze wzorów (3.12), (3.15) i (3.16), a przede wszystkim w schemacie graficznym pokazanym na rysunku 1.3, który zawiera w sobie część rysunku 1.2. W trakcie prezentowania twierdzeń zaakcentowano fakt, że funkcja sigmoidalna zawsze nadaje się na funkcję aktywacji. Jest to w zasadzie wystarczające dla zastosowań. Funkcje aktywacji scharakteryzowano w pracy [39] o wiele głębiej. Podkreśla się tam, że każda ograniczona, niewielomianowa funkcja o odpowiednio ograniczonej amplitudzie w nieskończoności nadaje się na funkcję aktywacji. Praktyka oraz prace [30] i [32] dowodzą, że funkcje kawałkami wielomianowe mogą pełnić rolę funkcji aktywacji. Również z tego powodu nie poświęcono więcej uwagi tym aspektom twierdzeń [39] Metody doboru parametrów sieci Powyżej przedstawiono sztuczną sieć neuronową jako pewien operator, który transmituje sygnał wejściowy w sygnał wyjściowy. Następnie podano interpretację tego operatora jako aproksymatora zależności funkcjonalnej. Jest to jedna z bardzo wielu możliwych interpretacji działania operatora SSN. Jednak
49 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 51 tylko ta interpretacja będzie używana w dalszej części tej książki. Kolejny krok w kierunku praktycznego skonstruowania sztucznej sieci neuronowej w celu rozwiązania praktycznego zadania inżynierskiego to przedstawienie sposobów dobierania elementów sieci, takich jak wagi połączeń międzywęzłowych, biasy, liczby neuronów, tak aby SSN była narzędziem rozwiązania zadania praktycznego. W literaturze opisano wiele algorytmów doboru parametrów sieci neuronowych. Najważniejsza ich klasyfikacja (zdaniem autora niniejszej pracy) to podział na algorytmy lokalne i nielokalne. Lokalność i nielokalność jest tu rozumiana w następujący sposób: algorytm lokalny modyfikujący parametr elementu sieci używa w swojej akcji jedynie parametrów elementów sieci bezpośrednio sąsiadujących z elementem bieżącym. Na przykład: zmiana wagi połączenia, w myśl algorytmu lokalnego, wymaga informacji dotyczących jedynie neuronów połączonych tym połączeniem. W algorytmie nielokalnym mogą tu być użyte informacje dotyczące również innych elementów sieci. W skrajnym przypadku nowe wartości wag mogą być obliczone w wyniku rozwiązania układu równań z wieloma niewiadomymi nieznanymi wartościami wag. Algorytmy lokalne są z zasady równoległe. Nielokalne mogą być ewentualnie paralelizowane sztucznie. W niniejszej pracy uprzywilejowane zostały algorytmy lokalne jako istotnie związane z nową jakością wprowadzoną przez technikę operatorów neuropodobnych do obliczeń inżynierskich: równoległość przetwarzania danych. Wybór metody największego spadku, jako sposobu ustalania wartości parametrów połączeń międzywęzłowych w sztucznej sieci neuronowej, prowadzi do algorytmów lokalnych i iteracyjnych. W zastosowaniach sieci neuronowej do zagadnienia aproksymacji funkcji należy zminimalizować wartość miary różnicy pomiędzy sygnałem wyjściowym a pewnym sygnałem zadanym dla poszukiwanego odwzorowania. Dany sygnał to znane wartości aproksymowanej funkcji. Wobec tego, że miara ta jest zwykle wyrażeniem kwadratowym, zaś w działanie odwzorowania są wkomponowane nieliniowe funkcje aktywacji problem ten jest układem równań nieliniowych. Ponadto miara błędu może nie być wypukłą funkcją wag. Jest to bardzo poważny problem, gdyż w takim wypadku metoda największego spadku prowadzi jedynie do minimum lokalnego. Ścisłe sformułowanie tego zagadnienia można znaleźć w [9]. Obliczanie gradientu funkcji niewypukłej zastąpiono tam obliczeniem subgradientu epigrafu tej funkcji (epigraf nie jest niestety różniczkowalny, jest tylko ciągły). W niniejszej pracy stosowany będzie zawsze algorytm 2.1, którego wynikiem będą minima lokalne, występujące w pewnym otoczeniu punktu startowego x 0.
50 52 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Aby zbliżyć się do minimum globalnego, algorytm 2.1 włączony będzie zawsze w jeden z praktycznych algorytmów pozwalających na poszukiwanie licznych innych minimów lokalnych i wybór najniższego. Takie praktyczne podejście jest powszechne w literaturze: { i} p { o} q p q : (3.15) NN R R ; = b 1 b 1 1 b 2 b 2 1 b 3 b 3 1 w 1 11 g 1 (a) w 2 11 g w 3 1 (a) 11 x 1 x i a 1 1 g... 1 g S S a 1 r g r g r (a) a 2 1 a 2 s g s g r (a) w 1 ri w 2 w 3 sr js S S f 1 f j S S o 1 o j x p a 1 R a 2 S w 1 g R (a) Rp w 2 g S (a) g SR w 3 R g S Sq S S f q S o q Rys Schemat perceptronu z dwoma warstwami ukrytymi zawierającymi po R i S neuronów. Skrajne lewe węzły ilustrują zmienne wejściowe, które występują we wzorze (3.15) w najbardziej zagłębionym nawiasie, otaczającym argument funkcji g. Kwadraty zawierają wynik działania funkcji aktywacji g na jej argument. Biasy przedstawione zostały tak, jak na rys Wiele z tych algorytmów ma charakter heurystyczny. Jako podejście odmienne i raczej perspektywiczne wymienić można zastosowanie algorytmu genetycznego do projektowania sieci neuronowej. Algorytm taki (pod nazwą ENZO) jest częścią pakietu SNNS [341]. Algorytm genetyczny, jak wiadomo, nie jest podatny na przyciąganie rozwiązania do minimum lokalnego. Rozpatrzmy najczęściej spotykaną w zastosowaniach sieć neuronową, zwaną wielowarstwowym perceptronem. Jej szczególnym przypadkiem są sieci aproksymujące funkcję i funkcjonał, określone w rozdziale pierwszym. Perceptron wielowarstwowy jest nieliniowym odwzorowaniem p wymiarowego wektora w wektor q wymiarowy: dla szczególnego przypadku dwóch warstw, wzór szczegółowy opisujący to odwzorowanie jest następujący: ( x ) ( ( ) ( ( ) ( )) ( )) f = o = w g w g w x + b + b + b (3) (2) (1) (1) (2) (3) j j js s s r r r i i r s j j = 1,...,q, i = 1,...,p, r = 1,...,R, s = 1,...,S (3.16)
51 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 53 W (3.15) i w dalszych wzorach jest używana konwencja sumacyjna, z wyjątkiem sumowania po indeksach w nawiasach i z oczywistym wyjątkiem przypadku, gdy użyty jest znak sumy. Oznaczenia i schemat działania odwzorowania (3.15) przedstawia rysunek 2.1. Odwzorowanie to jest nieliniowe, gdyż jako funkcję aktywacji przyjmuje się zazwyczaj polarną lub bipolarną funkcję sigmoidalną (3.8), (2.9), tangens hiperboliczny lub każdą inną funkcję, zgodną z twierdzeniami przytoczonymi w rozdziale pierwszym. g x = p 1+ exp λ x ( ) ( ) ( 1 exp ) ( 1 exp( )) i( ) i ( i ) ( ) ( ) g x = p λ x + λ x ( ) i i i i Można bez trudu wykazać, że interpretacja takiego odwzorowania jest podobna do tej, jaka została podana w twierdzeniu 1.1. Funkcja aproksymowana przyjmuje teraz wartości będące składowymi wektora q wymiarowego. W zagadnieniu uczenia nadzorowanego, każdemu sygnałowi wejściowemu sieci i towarzyszy pewien inny, zadany sygnał uczący t (target), który jest spodziewany lub wymagany na wyjściu sieci. Parę wektorów {i, t} nazywa się wzorcem uczącym. Oczywiście, generowany przez sieć sygnał wyjściowy o, będący obrazem sygnału wejściowego i, może być równy lub bliski sygnałowi uczącemu jedynie dla pewnych szczególnych wartości wag i biasów (przy ustalonej strukturze sieci). Uczeniem nadzorowanym sieci będziemy nazywali taki dobór wag i biasów sieci neuronowej NN, aby ε miara różnicy pomiędzy sygnałem wyjściowym a sygnałem uczącym była minimalna: Dla danego wzorca uczącego { i, t} znaleźć sieć NN taką, że: o t <ε, gdzie o = j = 1,...,q j j j (3.18) Wszystkie składowe ε i są ograniczone z góry przez ε zadaną małą tolerancję zwaną największym dopuszczalnym błędem uczenia pojedynczego wzorca. Jeśli sieć rozumiana jest jako aproksymator zależności funkcjonalnej, znaczenie elementów wzorca uczącego jest oczywiste: i jest pewną wartością argumentu funkcji, zwaną punktem próbnym, t jest wartością funkcji w tym punkcie. Dla perceptronu (3.15) zagadnienie aproksymacji (3.11) można przepisać w następującej formie (n jest liczbą punktów próbnych): n n n N ik = xk, tl = fl( x ) o n = n ; k = 1,...,p; l = 1,...,q (3.19)
52 54 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień n n Znaleźć NN taką, że: o t < ε n (3.20) Jeżeli zależność funkcjonalna, którą trzeba aproksymować jest dana, liczba wzorców próbnych jest nieograniczona. Wszystkie wzorce są wtedy dokładne. Zazwyczaj zależność funkcjonalna f jest nieznana, znane są z doświadczenia jedynie przykłady jej realizacji. Liczba wzorców uczących (wyniki prób doświadczalnych) jest wtedy ograniczona (często mała) i wszystkie wzorce są obarczone błędem pomiaru 3. Te dwa zagadnienia są jakościowo różne. Wybór interpretacji fizycznej sygnału uczącego i sygnału wejściowego jest równoznaczny z zastosowaniem sieci do rozwiązania problemu praktycznego, który jest źródłem tej interpretacji Klasyczne rozwiązanie problemu nadzorowanego uczenia sieci neuronowej warstwowej Szczególne wartości wag i biasów, dla których przy zadanej strukturze sieci generowany przez nią sygnał wyjściowy o obraz sygnału wejściowego i, będzie równy sygnałowi uczącemu obliczymy stosując do zagadnienia poszukiwania minimum miary błędu, metodę maksymalnego spadku. Oczywiście, wszystkie inne znane metody poszukiwania minimum mogą tu mieć zastosowanie. Zostaną one wymienione w dalszej części tego rozdziału. Ustalmy uwagę na przypadku, kiedy miarą wektora błędu dla pojedynczego wzorca nr k jest kwadrat normy euklidesowej: T ( ) ( ), k kt k k k k k k k q e δ δ t o t o t o R k = 1,...,n (3.21) Dla wszystkich n wzorców uczących: n k = 1 ( k k T ) ( k k ) E = t o t o (3.22) (również inne niż (3.22) miary błędu są cytowane w literaturze, na przykład miary związane z pojęciem korelacji sygnałów [1], [108], [139], [155]. Ich wybór w zastosowaniach praktycznych może być uzasadniony przez ich specyficzne właściwości, opisane w wymienionych publikacjach) 3 doświadczenie jest tu rozumiane w sensie szerszym, zawierającym również doświadczenie numeryczne. Także sformułowanie błąd pomiaru ma tu znaczenie inne niż zazwyczaj i oznacza błąd wyniku modelu numerycznego użytego w roli doświadczenia.
53 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 55 E jest funkcją podlegającą minimalizacji, o zależy od wag i biasów jako sygnał wyjściowy z sieci. W myśl algorytmu 2.1 obliczono najpierw gradient E, kolejno względem wag warstwy wyjściowej i warstw ukrytych. Dla uproszczenia, w zapisie gradientu e, opuszczając indeks k, biasy będą traktowane jako wagi połączeń z dodatkowym węzłem wejściowym o stałej aktywacji a = 1, wobec tego nie będą wyróżniane w dalszych zapisach. Wzór (3.15) może być przepisany jako złożenie kolejnych operacji: (3) (2) (2) (2) (1) (1) (1) oj = wjs gs ( a( s) ) as = wsr gr ( a( r )) ar wri xi ( k+ 1) ( k+ 1) ( k) Dla większej liczby warstw ukrytych: as wsr gr ( a( r) ) = (3.23) = (3.24) Różniczkowanie po wagach połączeń warstwy drugiej z warstwą wyjściową prowadzi do wzoru (3.25): e (2) (2) = δ 2 (3) jgs( as ) = δ 2 jos (3.25) w js Sygnał wyjściowy z neuronu s warstwy ukrytej nr 2 oznaczono jako: (2) (2) os = gs( as ) (3.26) Różniczkowanie błędu względem wag połączeń warstwy 1 z warstwą 2 prowadzi do wzoru (3.27): e w (2) ( g ( a ) (2) (1) ( a ) g ( a ) (3) s ( s) (3) = 2δ ( 2) j w js = 2δ (2) j w j( p) g p ( p) q ( q) pq w pq (3.27) Znak prim oznacza pochodną funkcji jednej zmiennej. Zauważmy, że fragment wzoru (3.27) można interpretować jako błąd δ j, propagowany wstecz z warstwy wyjściowej (gdzie znana jest jego wartość dokładna) do warstwy ukrytej nr 2, w ten sam sposób w jaki sygnał wyjściowy z warstwy 2 propagowany jest do warstwy wyjściowej sieci (to znaczy używając transpozycji tych samych wag połączeń w). Usprawiedliwia to określenie tej wartości jako błędu sygnału wyjściowego z warstwy drugiej : (2) (3) (2) δ =δ w g a (3.28) p j j( p) p ( ) Wprowadzając następujące oznaczenie sygnału wyjściowego neuronu p warstwy ukrytej 1 podobnie jak (3.26): ( ) (1) (1) p ( p) p ( p) o = g a (3.29)
54 56 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień można zapisać pochodną błędu na wyjściu sieci względem wag w (3.25) formułą: e w = δ o (2) (1) 2 (2) p q pq (3.30) Podobne rozumowanie prowadzi do wzoru na pochodną błędu względem wag połączeń pomiędzy warstwami wejściową i pierwszą ukrytą: e w = δ x (1) 2 (1) p q pq (1) (2) (2) (1) gdzie: p j wjp g p ( a( p) ) δ =δ ( ) Algorytm 2.2. Modyfikacja wag. Wybór wag początkowych w + ;inicjalizacje: (0) ( kk, 1) ij 0 E w = 0 E 0 =0 Rozpoczęcie kolejnej epoki uczenia n e = n e +1 Dla kolejnego wzorca numer m z wybranego zbioru wzorców Propagacja sygnału wejściowego. Obliczenie: (k ) Dla każdego neuronu ( k ) o ; gp( a( p) ) Na wyjściu z sieci: o ; = ( ) i ; δ t o ; e = δ T δ Propagacja wstecz blędu wyjściowego. Obliczenie: (k ) Dla każdego neuronu δ według ( ) Gradientu błędu i e według (3.181 ( )( )) w m m 1 E E e = + w w w ; oraz Em = E m-1 + e; Wyczerpanie elementów zbioru wzorców = η E E w w Jeśli E>ε to: w w ( w ) ( w ) n+ 1 n n n n ; wn : = w n+ 1 Jeśli E<ε to: w : min = w } koniec obliczeń n
55 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego b 1 b 1 1 b 2 b 2 1 b 3 b 3 1 w 1 11 δ 1 w δ 2 w 3 11 g 1 δ g 1 δ 1 S S w 1 ri g δ 1 r δ 2 r δ g r δ s S w 2 sr S w 2 js w 1 Rp g δ 1 R w 2 δ 2 R δ g R δ S SR S S w 3 Sq e 1 e j e q Rys Schemat propagacji wstecz błędu sygnału wyjściowego dla perceptronu z dwiema warstwami ukrytymi. Skrajne prawe okręgi symbolizują węzły wyjściowe, dla których znane są dokładne wartości składowych wektora błędu. W tej fazie pracy SSN jest to sygnał wejściowy, propagowany wstecz. Wartości δ n w kółkach to błąd warstwy nr n. Kwadraty są symbolem transformacji wyjściowej z węzła. Polega ona na pomnożeniu przez wartość pochodnej funkcji aktywacji, zgodnie z wzorem (3.31). Stosując postępowanie rekurencyjne i wychodząc z wzoru (3.24), można wykazać, że pochodna błędu względem wag połączeń warstw k i k + 1 zapisuje się ostatecznie następująco: w e ( k+ 1) ( k ) ( k+ 1) ( k+ 2) ( k+ 2) = 2δ ( k, k 1) p o + q ( ( k+ = 1) p δ j wjp g p a( p) ) pq δ ( ) Wzór ( ) wyraża lokalność procesu korekcji wag: poprawka wagi zależy tylko od sygnału pamiętanego z fazy propagacji wprzód w węźle początkowym połączenia i od błędu propagowanego wstecz do węzła końcowego połączenia. Zakładając, że warstwa wejściowa ma numer 0, warstw ukrytych jest n, zaś warstwa (n + 1) jest warstwą wyjściową, można zapisać iteracyjny algorytm 2.2 modyfikacji wag, gwarantujący znalezienie lokalnego minimum błędu, przepisując algorytm 2.1 z odpowiednimi oznaczeniami i oczywistymi uzupełnieniami. W dalszym ciągu pracy unormowany gradient błędu będzie oznaczany symbolem rezerwowanym zazwyczaj dla gradientu:
56 58 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień E = E E (3.32) w w Rysunek 3.4 jest tak zwanym grafem dołączonym [139]. Pozwala on również na uzasadnienie nazwy algorytmu korekcji wag: algorytm wstecznej propagacji błędu. W myśl tej interpretacji, dla każdej warstwy ukrytej dysponujemy błędem sygnału wyjściowego, tak samo jak dla warstwy wyjściowej. Transformacja za pomocą funkcji aktywacji zamienia się na mnożenie przez pochodną funkcji aktywacji, obliczoną dla bieżącej wartości aktywacji Przegląd innych algorytmów doboru wag synaptycznych Jak już stwierdzono poprzednio, każdy algorytm minimalizacji funkcjonału może być zastosowany w procesie doboru wag operatora neuropodobnego. Ponadto, algorytmy znane z teorii optymalizacji, w zastosowaniu do sieci neuronowych są często modyfikowane w sposób heurystyczny. Wobec tego, że algorytmy te są opisane szczegółowo w literaturze, jedynie niektóre z nich zostaną wymienione (bez szerszego komentarza) w tym podrozdziale. Z uwagi na jakość przybliżenia, na każdym kolejnym kroku iteracji można wśród nich wyróżnić takie, które biorą pod uwagę jedynie gradient funkcji błędu, oraz takie, w których użyto informacji o krzywiźnie tej funkcji, zawartej w Hesjanie H: T ( ) ( ) 12 T E + = E + E + + R w p w p p Hp (3.33) Do grupy algorytmów biorących pod uwagę jedynie informacje zawarte w gradiencie, w których metoda największego spadku została istotnie zmodyfikowana lub zastąpiona innym algorytmem minimalizacji, należy zaliczyć następujące metody: Metoda wstecznej propagacji z momentem W algorytmie iteracyjnym metody najmniejszego spadku wpływ gradientu błędu na zmianę wag jest osłabiony przez dodanie do zmiany bieżącej części poprzedniego przyrostu wag, w myśl wzoru: ( ) w = w η E w + α w (3.34) n+ 1 n n n n 1 Oprócz stabilizującego wpływu tej modyfikacji na proces iteracyjny należy zwrócić uwagę na fakt, że umożliwia on wyjście z minimum lokalnego. Współczynnik α zawiera się zazwyczaj w przedziale (0 0,8).
57 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 59 Metoda gradientu sprzężonego Jest to klasyczna metoda poszukiwania minimum różniczkowalnej funkcji celu. Kierunek początkowy jest przeciwny do gradientu, kierunki poszukiwania w kolejnych krokach to kierunki sprzężone względem Hesjanu H lub dowolnego jego przybliżenia. Metodę tę wymieniono w grupie metod gradientowych, gdyż w praktyce bieżący kierunek poprawy jest kombinacją liniową kierunków poprzednich, zaś współczynniki tej kombinacji są funkcjami gradientu obliczonego dla kroku bieżącego i poprzedniego. Algorytmy uwzględniające również informacje zawarte w Hesjanie zostaną wymienione poniżej. W większości z nich, zamiast Hesjanu używa się jednego z jego przybliżeń lub przybliżeń jego odwrotności. Strategia taka znana jest również w metodzie elementów skończonych, gdzie tworzy całą grupę metod Quasi-Newtonowskich. W metodach tych Hesjan jest nie tylko obliczany w sposób przybliżony na początku obliczeń, ale również w sposób przybliżony korygowany w trakcie procesu iteracyjnego. Algorytmy Quasi-Newtonowskie Polegają one na obliczeniu wektora kierunku poprawy jako: p 1 H ( w ) E( w ) (3.35) = n n n We wzorze (3.35) Hesjan może zostać zastąpiony dowolnym, właściwym dla specyficznego algorytmu, przybliżeniem. Metoda Levenberga-Marquarta Metoda ta wykorzystuje pewną szczególnie efektywną postać przybliżenia Hesjanu i gradientu. Jej opis można znaleźć w [139] i w innych podręcznikach. Do podręcznika [139] dołączono ponadto program komputerowy, realizujący obliczenia zgodnie z tą metodą. Jest to najszybciej zbieżny algorytm treningu sieci. Wymaga on jednak zapamiętania macierzy kwadratowej pochodnych po wagach. Spośród metod, których specyfika polega na wyborze odpowiedniego współczynnika prędkości uczenia dla każdego kroku iteracji, wymienimy następujące: Metoda Quick-Prop W metodzie tej prędkość uczenia jest stała lub zerowa, zaś współczynnik momentu a dobierany jest indywidualnie, w dość złożony sposób, dla każdej wagi i dla każdego kroku iteracji.
58 60 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Metoda Delta-Bar-Delta W metodzie tej współczynnik prędkości uczenia określa się indywidualnie dla każdej wagi i uaktualnia dla każdego kroku iteracji. JE (Jacob s Enhanced) udoskonalona wsteczna propagacja wykorzystująca (jak wiele innych, podobnych rozwiązań) wielomianowe przybliżenie funkcji celu w wyznaczonym kierunku w celu obliczenia jego minimum. Powyższe algorytmy były używane wielokrotnie przez autora pracy bądź jako podprogramy własnych programów, bądź podczas korzystania z dostępnych programów narzędziowych (SNNS, QNET). Należy podkreślić, że lista powyższa jest daleka od kompletności. Jakościowo innym algorytmem doboru wag jest algorytm genetyczny. Jako procedura współpracująca z programem SNNS [140] nosi on nazwę ENZO. Jest to, zdaniem autora, najbardziej obiecujący algorytm treningu. Jego największe zalety to możliwość doboru nie tylko wag dla zadanej architektury sieci, ale także, ogólniej, liczby warstw i liczby neuronów w warstwach. Jego kolejną zaletą jest to, że jako algorytm genetyczny nie jest wrażliwy na przyciąganie rozwiązania przez minima lokalne i znajduje zazwyczaj minimum globalne. Nie wymaga on różniczkowalności funkcji błędu wyjścia sieci. Wadą algorytmu jest jego bardzo powolna zbieżność Analiza jakości wytrenowania sieci neuronowej W rozdziale tym analizuje się sztuczną sieć neuronową jako narzędzie aproksymacji funkcji, funkcjonału lub operatora. We wszystkich przypadkach zastosowań przedstawionych w dalszym ciągu tej pracy, funkcja, funkcjonał lub operator są zdefiniowane poprzez znajomość przykładów ich działania na zmienną niezależną lub funkcję próbną. Pozyskanie każdego przykładu wiąże się z wysiłkiem numerycznym lub eksperymentalnym, który trzeba wziąć pod uwagę przy projektowaniu modelu neuropodobnego. Liczba dostępnych przykładów może być bardzo mała lub przeciwnie, bardzo duża lub nawet nieograniczona. Przykłady są podstawą uczenia nadzorowanego i zawierają w sobie całą informację o aproksymowanym obiekcie matematycznym lub modelowanym obiekcie (zjawisku) fizycznym. Z założenia przykłady są jedynym narzędziem kształtowania operatora neuropodobnego. Dlatego wiedza teoretyczna, jaką posiadamy o modelowanym obiekcie, powinna być również przedstawiona w formie przykładów. Stwierdzenie powyższe nie jest oczywiste ani trywialne. Łatwo bowiem wyobrazić
59 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 61 sobie, że teoria modelowanego procesu fizycznego upewnia nas, iż jego realizacje są opisane jedynie przez pewne szczególne funkcje i wobec tego funkcje te powinny w jakiś sposób być uwzględnione w konstrukcji aproksymacji neuropodobnej. Jest to sytuacja często spotykana w teorii i praktyce aproksymacji. W niniejszej pracy od aproksymacji neuropodobnej żąda się jedynie, aby była wystarczająco bogata, by prawidłowo reprezentować znany zbiór przykładów. Kolejnym wymaganiem jest postulat prawidłowej reprezentacji przykładów, które nie były znane podczas treningu lub nie były użyte w procesie uczenia nadzorowanego, jednak są realizacją tego samego, modelowanego procesu. Jak wynika z rozważań przedstawionych w rozdziale 1, do budowy sieci neuronowej można użyć dość szerokiej grupy funkcji. Jeżeli natura modelowanego zjawiska wymaga użycia pewnych szczególnych funkcji aktywacji, to powinno to również wyniknąć z analizy jakości reprezentacji przez model neuropodobny znanych i nowych przykładów. Jest to możliwe jedynie wtedy, gdy parametry użytych w modelu funkcji są zmienną aproksymacji i podlegają automatycznej adaptacji w procesie uczenia. Domyślnie przyjmuje się, że zmiennymi aproksymacji są jedynie wagi, biasy, liczba warstw ukrytych i liczba neuronów w warstwach. W przypadku, gdy również parametry funkcji aktywacji są zmiennymi kształtowanymi w procesie uczenia jest to wyraźnie zaznaczone w dalszym ciągu tej pracy. Na jakość aproksymacji wpływa nie tylko ilość informacji, ale także to, czy informacja ta w pełni charakteryzuje modelowane zjawisko lub obiekt. Przybliżenie może być na tyle dobre, na ile wyczerpująca jest dostarczona informacja. W kontekście aktualnie posiadanej informacji, zmienne aproksymacji mogą być jednak lepiej lub gorzej dobrane. W dalszej części tego rozdziału zostaną sformułowane kryteria oceny jakości aproksymacji, oceny jakości danych użytych do treningu oraz sposoby właściwego doboru struktury sieci w kontekście posiadanej informacji. Zbiór przykładów zawierających informację o działaniu funkcji, funkcjonału lub operatora, na zmienną niezależną lub funkcję próbną, jest identyczny ze zbiorem wzorców {i, t} P określonym w podrozdziale Zbiór ten liczy P elementów. Każdy element zbioru jest parą wektorów: sygnał wejściowy i odpowiadający mu, dany sygnał wyjściowy t (target, wektor celu). W zbiorze wzorców wyróżnia się trzy podzbiory: Zbiór wzorców uczących, zbiór wzorców testujących i zbiór wzorców weryfikujących.
60 62 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Zbiór wzorców uczących jest używany do treningu sieci. Stanowi on podstawę do obliczania błędu sygnału wyjściowego i korekcji wag zmierzającej do jego minimizacji. Zbiór wzorców testujących jest używany do treningu sieci jedynie pośrednio. Stanowi on podstawę do obliczania błędu sygnału wyjściowego sieci (błąd na zbiorze testującym) w trakcie treningu, lecz nie wpływa na zmianę wag połączeń międzywęzłowych. Jego wpływ na trening polega na tym, że obserwacja błędu na zbiorze testującym wpływa na decyzję o zakończeniu treningu. Zbiór wzorców weryfikujących nie jest używany w trakcie treningu. Błąd sygnału wyjściowego sieci w stosunku do wektorów celu zbioru weryfikującego jest obliczany po zakończeniu treningu. Standardowe miary zgodności odpowiedzi sieci o na sygnał wejściowy i, z danym wektorem celu t, to średni błąd kwadratowy (3.36) oraz korelacja pomiędzy o i t dana wzorem (3.38). Te miary przyjęte są jako domyślne w ciągu całej pracy. ρ 1 P t,o = i pi i pi i Pσσ t o i= 1 1 ( ) 2 pi pi p,i, 1 PK to PK σσ (3.37) t o j= 1 RMS = t o (3.36) PK ( t t )( o o ) ρ = ( tpi t )( opi o ) We wzorach (3.37), (3.38) i (3.39) p jest numerem bieżącym wzorca, i jest numerem węzła wyjściowego, t pi jest składnikiem wzorca sygnału wyjściowego (wektora celu), o pi oznacza odpowiedni sygnał wyjściowy sieci. P jest całkowitą liczbą wzorców, K jest liczbą węzłów wyjściowych. Nadkreślenia oznaczają wartości średnie, σ są odchyleniem standardowym dla wzorca sygnału wyjściowego i samego sygnału wyjściowego sieci. Popularną miarą oceny jakości odpowiedzi sieci jest analiza odchyłek za pomocą podania frakcji p t podzbioru zbioru wzorców zawartego wewnątrz przedziału obejmującego wzorzec sygnału wyjściowego z zadaną tolerancją. We wzorze (3.38) n i jest liczbą sygnałów wyjściowych spełniających warunek (3.39). p τ i = ni P t t < o < t + t pi pi pi (3.38) (3.39) Inne miary zgodności zbioru odpowiedzi sieci i danych zbiorów wzorcowych mogą być również definiowane. W szczególności można obliczać inne statystyki (np. wartości średnie i momenty wyższych rzędów) rozkładu błędu pomiędzy
61 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 63 elementami tych zbiorów. Miara zgodności, zdefiniowana dla oceny jakości, nie musi koniecznie odpowiadać mierze błędu na wyjściu, podlegającej minimalizacji w trakcie doboru wag. Na przykład funkcją celu podlegającą minimalizacji może być funkcja Karayiannisa [205], zaś miarą błędu dla oceny jakości aproksymacji norma L wektora błędu Własności prawidłowo wytrenowanej i prawidłowo skonstruowanej Sztucznej Sieci Neuronowej Nie podejmując formalnej analizy zależności jakości aproksymacji od liczby parametrów sieci, należy stwierdzić, że parametry te mogą być rozumiane jako stopnie swobody, pozwalające na minimalizację miary błędu sygnału wyjściowego sieci. W praktyce, wobec wielości kryteriów dobroci aproksymacji, minimalizacji podlega tylko pewna jedna miara błędów, inne są jedynie obserwowane. Na przykład, minimalizacji podlega błąd RMS obliczany dla zbioru uczącego, zaś obserwacji biernej podlegają: błąd RMS obliczany dla zbioru testującego i zbioru weryfikującego. Miary błędu dla każdego z tych trzech zbiorów nie zawsze są wielkościami zależnymi. Łatwo zauważyć, że zawsze można uzyskać dowolnie mały błąd dla zbioru uczącego, zwiększając liczbę neuronów (a tym samym liczbę stopni swobody sieci). Zwiększając liczbę stopni swobody, przeprowadzamy sygnał wyjściowy operatora neuropodobnego przez zadane punkty zbioru uczącego, nie biorąc pod uwagę faktu, że minimum błędu dotyczy całej populacji punktów, a wiec także tych, które należą do zbioru testującego i nie wpływają na minimum sumy kwadratów błędów składowych. Może się wobec tego okazać, że błąd RMS, obliczony dla zbioru testującego, wzrośnie w miarę malenia błędu dla zbioru uczącego. Opisany przypadek może mieć miejsce w sytuacji, gdy sieć jest bardzo duża, bogata w stopnie swobody, i od pewnego momentu wagi są bardzo blisko minimum odpowiadającego dokładnemu spełnieniu warunków aproksymacji sygnału uczącego. Oczywiście sieć taka jest wytrenowana przesadnie i przestaje pełnić rolę aproksymatora danych, a zaczyna być dokładną reprezentacją zbioru uczącego. Aby była ona aproksymatorem całego posiadanego zbioru danych, należy utrzymać błąd dla zbioru testującego na tym samym poziomie co błąd zbioru uczącego, a przynajmniej nie dopuścić do jego wzrostu w miarę malenia błędu treningu. Inna interpretacja dotyczy rozbieżności między błędem dla zbioru uczącego i dla zbioru weryfikującego. W tym wypadku różnica błędów oznacza, że zbiór trenujący był niereprezentatywny
62 64 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień dla całej populacji. Oczywiście zarówno zbiór testujący, jak i uczący, powinny być zbiorami reprezentatywnymi dla obiektu matematycznego, który określają. Można sformułować następujące, naturalne postulaty dotyczące własności prawidłowo wytrenowanej sieci neuronowej użytej w roli aproksymatora funkcji, funkcjonału lub operatora, zadanego przy pomocy zbioru swoich realizacji w skończonej liczbie punktów (zbiór wzorców) i będącego zwykle interpretacją matematyczną pewnej sytuacji fizycznej: Postulat 1 Błąd sygnału wyjściowego powinien być mniejszy od żądanej tolerancji i taki sam (z dokładnością do małej wyższego rzędu) dla zbioru wzorców uczących, testujących i weryfikujących. Postulat ten wynika z faktu, że wszystkie trzy podzbiory zbioru wzorców należą do tej samej populacji danych (charakteryzują ten sam obiekt matematyczny). W większości publikacji dotyczących sieci neuronowych z warstwami ukrytymi kryterium zatrzymania treningu sieci opiera się na tym postulacie. Postulat 2 Dla wielu różnych procesów uczenia (w szczególności wielu treningów startujących z różnych przybliżeń początkowych wektora wag połączeń i biasów) sygnały wyjściowe powinny należeć do tego samego przedziału tolerancji (3.40) dla każdego elementu zbioru wzorców testujących i weryfikujących. ( t, t ) t i = pi t pi +t lub o t pi oi ti p < t (3.40) Postulat ten wynika z faktu, że przy doborze architektury sieci neuronowej nie istnieją precyzyjne zasady ustalania liczby neuronów i ich organizacji w warstwy. Istniejące algorytmy mają charakter iteracyjny i są w istocie metodą poszukiwania opierającą się na próbach i korektach. Wobec tego realne jest niebezpieczeństwo, że zbyt bogata w stopnie swobody architektura sieci może prowadzić do niejednoznacznego doboru wag połączeń. Jest to równoważne ze stwierdzeniem, że różne rozwiązania problemu doboru wag i biasów mogą odpowiadać różnym minimom lokalnym. Jednocześnie metoda największego spadku pozwala, w ogólności, na znalezienie jedynie minimum lokalnego. Zasada poszukiwania minimum najlepszego jest wpisana w postulat drugi. Można stwierdzić, że niektóre programy narzędziowe prawdopodobnie funkcjonują zgodnie z algorytmem wielokrotnych startów. Należy podkreślić, że sformułowany tu Postulat 2
63 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 65 dotyczy jednocześnie dwóch zagadnień: sieci minimalnej 4 i problemu unikania minimum lokalnego. Postulat ten można efektywnie wykorzystać dla sprawdzenia jakości aproksymacji jedynie w przypadku sieci małych, dla których proces treningu jest krótki. W całej prezentowanej pracy będą używane wyłącznie sieci spełniające ten warunek (zawierające raczej kilkadziesiąt stopni swobody niż kilkaset, o warstwach wejściowych i wyjściowych zawierających jedynie po kilka węzłów) Numeryczna ocena jakości wytrenowania SSN dla problemu aproksymacji W wielu przypadkach zastosowania sieci neuronowych liczba wzorców trenujących jest niewielka, zaś koszt ich numerycznego lub eksperymentalnego utworzenia duży. Przedstawiona metoda oceny jakości wytrenowania sieci nie wymaga wydzielania z tego zbioru przykładów ukrytych przed siecią w czasie treningu (testujących). Zakłada ona utworzenie pewnego sztucznego zbioru wzorców weryfikujących, dla których odpowiedź sieci jest nieznana, lecz powinna być taka sama dla danej sieci, bez względu na przyjęty sposób treningu i wyjściowe wartości parametrów. Metoda oceny jakości wytrenowania sieci zaproponowana poniżej i stosowana przez autora w wielu zagadnieniach analizowanych w tej pracy opiera się na nieco silniejszej wersji Postulatu 2: Postulat 3 Dla wielu różnych procesów uczenia (w szczególności wielu treningów startujących z różnych przybliżeń początkowych wektora wag połączeń i biasów) sygnały wyjściowe powinny należeć do tego samego przedziału tolerancji (3.40) określonego dla każdego elementu sztucznego zbioru wzorców weryfikujących, zdefiniowanych wzorem (3.41). s s { ii ti} = { λ ii + ( 1 λ) ii+ 1 λ ti + ( 1 λ ) ti+ 1} [ 01, ] λ (3.41) Wzór (3.41) przedstawia i-tą parę sztucznego zbioru wzorców. Sztuczny zbiór wzorców weryfikujących {i s, t s } utworzony jest na podstawie zbioru wzorców uczących następująco: Wektor wejściowy sztucznego wzorca weryfikującego i s tworzony jest tak, aby leżał na prostej łączącej dwa bliskie ( sąsiednie ) punkty 4 Przez sieć minimalną rozumie się sieć o minimalnej liczbie warstw i neuronów, a ogólniej o minimalnej liczbie wykonywanych operacji dodawań i mnożeń.
64 66 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień wzorca uczącego i. Wektor wyjściowy sztucznego wzorca weryfikującego tworzony jest podobnie, na podstawie wektora wyjściowego t tych samych bliskich składowych wzorca uczącego. Wektor wyjściowy sztucznego zbioru weryfikującego nigdy nie jest używany w procesie minimalizacji błędu wyjściowego sieci. Sygnał wyjściowy sieci może być mu bliski (interpolacja pomiędzy bliskimi punktami), ale nie musi. Istotne jest, aby był niemal taki sam dla wszystkich treningów, wykonanych na całym dostępnym zbiorze wzorców dla różnych wartości początkowych wag i biasów Przykład ilustrujący zastosowania SSN do aproksymacji prostej zależności funkcjonalnej Przedstawiony poniżej przykład nie jest przykładem zagadnienia odwrotnego w takim znaczeniu, w jakim zdefiniowane to zostanie w kolejnym rozdziale. Również zależność funkcjonalna, jaka zostanie przybliżona przez odpowiednio wytrenowaną sieć neuronową, nie ma charakteru relacji odwrotnej w sensie zdefiniowanym w dalszej części książki. Jednak to proste zadanie przykładowe można uznać za pewien prototyp zadania odwrotnego. Wyobraźmy sobie, że pewna obserwowalna wielkość zachowuje się zgodnie z prawem, zależnym od dwóch parametrów, w ten sposób, że dla każdego x z pewnego przedziału przyjmuje wartości trójmianu kwadratowego, którego pierwiastkami są właśnie te dwa parametry. Jeśli pierwiastki te znamy, to prawo to opisuje zmienność obserwowanej wielkości w następujący sposób: 2 i (3.42) i= 1 ( ) = ( ) w x x X Załóżmy następnie, że znamy wartość funkcji w(x) w kilku punktach obserwacyjnych i dla kilku obserwacji. Należy wywnioskować z tych danych, jakie parametry X 1 i X 2 rządzą obserwowanym zjawiskiem. Innymi słowy należy znaleźć pierwiastki trójmianu kwadratowego, jeśli znamy wartości trójmianu w kilku punktach. Oczywiście, ścisłe, nienumeryczne rozwiązanie tego prototypowego problemu odwrotnego jest bardzo proste: jeśli zaobserwowano wartości funkcji w(x i ) = w i dla dwóch różnych wartości x i (i = 1..2), to wystarczy znaleźć współczynniki trójmianu kwadratowego, odwracając macierz zapisaną poniżej, a następnie skorzystać ze wzorów na pierwiastki trójmianu kwadratowego (dla którego wyraz przy najwyższej potędze x jest równy 1).
65 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 67 a = 1, w w2 2 b x x = c x x => X X 1 2 ( a,b,c) ( a,b,c) (3.43) Załóżmy jednak, że rozwiązujący ten problem nie zna, ani wzorów na pierwiastki trójmianu kwadratowego, ani nie potrafi odwrócić macierzy we wzorze (3.43). Umie tylko wykonać operację wprost zapisaną formułą (3.42). W trudniejszych zagadnieniach matematycznych, nieznajomość teorii prowadzącej do zapisania algorytmu rozwiązania problemu odwrotnego i przeprowadzenia odpowiednich obliczeń, może być mniej kompromitująca, tak jak to było pokazane w rozdziale wstępnym. Problem wprost jest zwykle łatwiejszy. Pozostaje znaleźć przybliżenie relacji: obserwowalne wartości funkcji w(x) parametry X 1, X 2. Następnie można obliczyć pierwiastki dla każdej pary zaobserwowanych wartości w. Ta relacja to pewien prototyp relacji odwrotnej. Jest ona funkcją dwóch zmiennych, przyjmuje wartości w zbiorze wektorów dwuwymiarowych. Istnieje ona z pewnością dla rzeczywistych pierwiastków, gdyż wzór (3.43) to zapewnia. Poniższy sposób postępowania powinien prowadzić do rozwiązania zadania. Wybrać punkty, w których dokonuje się obserwacji wartości w. Niech to będą dwie ustalone wartości x 1, x 2. (Odpowiada to praktyce wykonywania doświadczenia: punkty, w których przeprowadza się pomiary powinny być starannie wybrane, ustalone ich miejsce i liczba). Losując dowolne wartości pierwiastków X 1, X 2 i posługując się wzorem wprost (3.42), obliczyć wartości: ( )( ) w = x X x X i = 1..2 (3.44) i i 1 i 2 Skonstruować sztuczną sieć neuronową, która każdej parze wartości funkcji {w 1, w 2 } (mierzonych w wybranych punktach x 1 i x 2 następnie podanych na wejściu sieci) przypisuje parę pierwiastków {X 1, X 2 }, tę, która była użyta do ich obliczenia (wartości aktywacji neuronów warstwy wyjściowej). Sieć ta będzie skonstruowana w ten sposób, że najpierw zostanie wybrana jej budowa, a następnie wyznaczone zostaną wagi metodą treningu, tak aby uzyskać SSN, która dla wystarczającej liczby przykładów realizacji tego odwzorowania daje spodziewane wyniki transformacji sygnału wejściowego pary zmiennych niezależnych w sygnał wyjściowy.
66 68 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Budowa sieci jest następująca: warstwa wejściowa zawiera dwa neurony, które przyjmują wartości {w 1, w 2 }, warstwa wyjściowa dwa neurony, które przyjmują wartości interpretowane jako {X 1, X 2 }. W trakcie uczenia sieci, będą one porównywane z wartościami pierwiastków równania, dla których obliczono wartości funkcji na wejściu sieci. Należy następnie przemyśleć liczbę warstw ukrytych i neuronów w warstwach ukrytych. Jak napisano powyżej, w tym rozdziale, twierdzenia mówiące o zdolnościach aproksymacyjnych sieci neuronowej są niekonstruktywne, to znaczy, nie podają przepisu na budowę wewnętrzną operatora neuropodobnego. Jak wynika z wzoru (3.43), relacja odwrotna zależy od czterech liczb, wartości elementów macierzy odwrotnej. Jednak SSN musi mieć więcej połączeń synaptycznych, gdyż musi dobrze aproksymować funkcję pierwiastkową. W innych zastosowaniach SSN, sieć jest zwykle operatorem o bardzo wielu stopniach swobody. Jeśli tych stopni swobody jest zbyt dużo łatwo można utracić właściwości uogólniające, wykrywające trend, na rzecz dokładnego reprezentowania danych użytych do treningu sieci. Sieć może nauczyć się na pamięć jedynie danych, które formowały wagi i biasy sieci w trakcie treningu. Takie niebezpieczeństwo jest łatwe do uniknięcia: ilość wzorców trenujących musi być o wiele większa niż liczba stopni swobody sieci i taka, aby wystarczającą ich liczbę pozostawić jedynie do testowania odpowiedzi sieci. W omawianym przykładzie powinna wystarczyć jedna warstwa ukryta o kilku neuronach. Wydaje się, że najmniejszą siecią, która można zastosować jest sieć o budowie 2_2_2. Zbadajmy jednak zachowanie (łatwość uczenia i uogólnienia, wartości skalarnych miar jakości wytrenowania) sieci większej, o budowie 2_5_2 (dwa neurony w warstwie wejściowej, pięć w warstwie ukrytej i dwa neurony wyjściowe). Wzorzec uczący ma budowę następującą: {{w 1, w 2 }, {X 1, X 2 }}. Zapis ten oznacza: {{uporządkowany zbiór wartości dla neuronów w warstwie wejściowej},{uporządkowany zbiór wartości docelowych neuronów w warstwie wyjściowej}}. Inaczej: {{input},{target}}.
67 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 69 Ponieważ sieć ma 25 stopni swobody, liczba przykładów uczących powinna być o wiele większa od tej liczby. Jeśli przyjmiemy 100 wzorców uczących, to możemy przynajmniej połowę przeznaczyć na zbiór testujący. Wyniki uczenia przedstawiono poniżej. Rysunek 3.5 przedstawia zgodność odpowiedzi sieci z wielkościami oczekiwanymi dla zbioru wzorców uczących i dla zbioru wzorców testujących. Rysunek 3.6 przedstawia tę samą informację w sposób syntetyczny, na osiach odłożono wartości neuronów w warstwie wyjściowej i oczekiwane wartości neuronów (wykres input-target), również dla obu zbiorów: uczącego i testującego, dla całej populacji wzorców użytych podczas treningu. A. B. Rys Zgodność odpowiedzi sieci z wielkościami oczekiwanymi dla zbioru wzorców uczących i dla zbioru wzorców testujących. Na osi poziomej odłożono wartości neuronów w warstwie wyjściowej, na osi pionowej oczekiwane wartości neuronów (wykres input- target), dla zbiorów: uczącego i testującego, dla całej populacji wzorców użytych podczas treningu. Rysunek A. dotyczy sieci o schemacie 2_5_2; rysunek B. sieci o schemacie 2_2_2.
68 70 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień A. B. Rys Zgodność odpowiedzi sieci z wielkościami oczekiwanymi dla zbioru wzorców uczących i dla zbioru wzorców testujących X 1 (pierwszy pierwiastek równania). Na osi poziomej odłożono numer wzorca uczącego/testującego, na osi pionowej oczekiwane wartości neuronu w warstwie wyjściowej odpowiadającego X 1. Rysunek A. dotyczy sieci o schemacie 2_2_2; rysunek B. sieci o schemacie 2_5_2.
69 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 71 A. B. Rys Zgodność odpowiedzi sieci z wielkościami oczekiwanymi dla zbioru wzorców uczących i dla zbioru wzorców testujących X 2 (pierwszy pierwiastek równania). Na osi poziomej odłożono numer wzorca uczącego/testującego, na osi pionowej oczekiwane wartości neuronu w warstwie wyjściowej odpowiadającego X 2. Rysunek A. dotyczy sieci o schemacie 2_2_2; rysunek B. sieci o schemacie 2_5_2.
70 72 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Kolejny wykres, zamieszczony na rysunku 3.8, to wynik pracy sieci w trybie przywołania (recall mode). W tym trybie na wejście sieci podaje się wartości nigdy nieużywane, ani podczas treningu, ani podczas testu. Jest to ilustracja zdolności sieci do pracy w trybie uzyskiwania informacji w taki sposób, w jaki używa się formuły symbolicznej do obliczenia szukanych wielkości. W tabeli zestawiono wartości skalarnych miar jakości aproksymacji. Na rysunkach 3.5 i 3.6 oznaczonych literą B, podano dla porównania rezultaty treningu sieci 2_2_2. Przypuszczenie, że sieć ta może być skutecznie wytrenowana, potwierdziło się. Porównanie tego rysunku z rysunkiem 3.6 pozwala zauważyć, że obie wartości zmiennej wyjściowej są przybliżone z podobną dokładnością. A. B. Rys Zgodność odpowiedzi sieci z wielkościami oczekiwanymi dla zbioru wzorców weryfikujących w trybie recall. Na osi pionowej odłożono wartości neuronów w warstwie wyjściowej, na osi poziomej oczekiwane wartości neuronów dla zbioru weryfikującego. Rysunek A. dotyczy sieci o schemacie 2_5_2; rysunek B. sieci o schemacie 2_2_2.
71 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 73 A. B. Rys Zgodność odpowiedzi sieci z wielkościami oczekiwanymi dla zbioru wzorców weryfikujących w trybie recall X 1 (pierwszy pierwiastek równania). Na osi poziomej odłożono numer wzorca weryfikującego, na osi pionowej oczekiwane wartości neuronu w warstwie wyjściowej odpowiadającego X 1. Rysunek A. dotyczy sieci o schemacie 2_2_2; rysunek B. sieci o schemacie 2_5_2.
72 74 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Porównanie tego rysunku z rysunkiem 3.5 pozwala stwierdzić, że uczenie i weryfikacja niemal nie odbiegają od siebie jakościowo dla obu sieci. Oczywiście, sieć 2_5_2 pozwala na lepsze przybliżenie wielkości szukanych (pierwiastki trójmianu) w tym prostym zadaniu odwrotnym. Podobny wniosek nasuwa się po analizie rysunku 3.9. Powyższe rysunki stanowią kompletny raport ilustrujący jakość wytrenowania sieci, a tym samym, jakość aproksymacji nieznanej zależności funkcjonalnej, o której dysponujemy informacją dyskretną: jej wartościami dla rodziny punktów w przestrzeni zmiennych niezależnych. Są to: wykres zgodności sygnału wyjściowego z sygnałem oczekiwanym, wykresy zgodności sygnałów wyjściowych z sygnałami oczekiwanymi dla wzorców trenujących bądź testujących, te same wykresy dla wzorców walidujących (nieużywanych nigdy w procesie uczenia), dla sygnału wyjściowego sieci działającej w trybie przywołania (recall mode). W dalszych rozdziałach, przy wartościowaniu jakości aproksymacji, tylko niektóre z analizowanych wykresów będą prezentowane. Próba aproksymacji funkcji niejednoznacznej Należy zwrócić uwagę na następujący fakt: mimo, że wartości pierwiastków trójmianu, użytych do obliczeń wprost są losowane, to jednak należy je wprowadzić na wejście sieci w sposób uporządkowany, na przykład mniejszą wartość nadać zawsze neuronowi numer 1, zaś większą neuronowi numer 2. Należy zauważyć, że każdej parze wartości trójmianu odpowiada jeden wykres, który ma dwa miejsca zerowe. Wobec tego przyporządkowanie aproksymowane przez SSN nie jest wzajemnie jednoznaczne. σ σ σ ε ε Rys Przykład łatwego przekształcenia funkcji niejednoznacznej w jednoznaczną przez dodanie jednej, pomocniczej zmiennej niezależnej. Rysunek przedstawia wykres przyrostu naprężenia dla przyrostowego sformułowania związku konstytutywnego. Dodatkowa zmienna niezależna ma, w tym wypadku, sensowną interpretację fizyczną.
73 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 75 Twierdzenie o aproksymacji funkcji nie obejmuje takich przypadków! Nie można aproksymować relacji funkcyjnej, która nie jest wzajemnie jednoznaczna. Jak się wydaje, każda funkcja nieróżnowartościowa może być łatwo przekształcona na relację jednoznaczną przez zapisanie jej w przestrzeni, w której jest więcej wymiarów. Ilustruje to rysunek A. B. Rys Zgodność odpowiedzi sieci z wielkościami oczekiwanymi dla zbioru wzorców uczących i dla zbioru wzorców testujących. Na osi pionowej odłożono wartości neuronów w warstwie wyjściowej, na osi poziomej oczekiwane wartości neuronów dla zbioru weryfikującego. Oba rysunki dotyczą sieci o schemacie 2_5_2, tej samej, która poprzednio była trenowana ze znakomitymi wynikami; Rysunek A. przedstawia sytuację, kiedy nie skorygowano niejednoznaczności aproksymowanej funkcji. Jest to przykład ilustrujący wynik uczenia, które się nie powiodło. Rysunek B. przedstawia sytuację, w której sieć uczona była dla danych odczytywanych w punktach pomiarowych bardzo bliskich. Po treningu kilkakrotnie dłuższym ( cykli) zbliżono się zaledwie do dokładności uzyskanej niemal natychmiastowo dla sieci dużo uboższej (2_2_2).
74 76 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Taki zabieg formalny ma zwykle interpretację fizyczną. W przypadku omawianego przykładu obliczania pierwiastków trójmianu wprowadzenie porządku do zbioru pierwiastków jest równoznaczne z wprowadzeniem trzeciej zmiennej niezależnej, mianowicie numeru pierwiastka. Wyniki uczenia sieci, w której zaniedbano kolejność pierwiastków i tym samym, próbowano nauczyć sieć przebiegu funkcji niejednoznacznej, zilustrowano poniżej. Rysunek 3.11 przedstawia zgodność odpowiedzi sieci z wielkościami oczekiwanymi dla zbioru wzorców uczących i dla zbioru wzorców testujących. Widać, że wartości te są różne. Rysunek 3.12 przedstawia tę samą informację w sposób syntetyczny, na osiach odłożono wartości neuronów w warstwie wyjściowej i oczekiwane wartości neuronów (wykres input-target), również na tym wykresie widać charakterystyczny brak zbieżności procesu treningu sieci. Dokładność aproksymacji dla jakościowo różnych danych uczących Rozpatrzmy dwa przypadki nieprawidłowego zbioru danych i zaobserwujmy wpływ błędów na proces rozwiązywania zadania odwrotnego (analizowany prototyp zagadnienia odwrotnego ma takie same własności jak rozwiązanie zadania odwrotnego sformułowane w kolejnych rozdziałach). W pierwszym przypadku przeanalizujemy obserwację nadmiarową. Zbiór danych obserwacyjnych zawiera teraz dane odczytane w czterech różnych (ale zawsze tych samych) punktach. Próba wkomponowania takiej obserwacji w algorytm rozwiązania zadania odwrotnego opisany formułą (3.43) nie może się udać ze względu na wymiary wektorów i macierzy, które w tym wzorze występują. Zbadajmy zachowanie sieci o budowie dostosowanej do zbioru danych obserwacyjnych: 4_5_2 (cztery pomierzone wartości funkcji dla neuronów w warstwie wejściowej, pięć w warstwie ukrytej i dwa neurony wyjściowe). Wzorzec uczący ma budowę następującą: {{w 1, w 2, w 3, w 4 }, {X 1, X 2 }}. Ponieważ zwiększyła się ilość wag, należy zwiększyć ilość danych uczących. Wygenerowano 150 przykładów przebiegu relacji odwrotnej. Wyniki aproksymacji przedstawione są na rysunkach
75 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 77 A. B. Rys Zgodność odpowiedzi sieci z wielkościami oczekiwanymi dla zbioru wzorców uczących i testujących, dla neuronu X 1. Na osi poziomej odłożono numer wzorca, na osi pionowej oczekiwane wartości dla neuronu X 1 w warstwie wyjściowej. Rysunek A. przedstawia sytuację, kiedy nie skorygowano niejednoznaczności aproksymowanej funkcji. Jest to przykład ilustrujący wynik uczenia, które się nie powiodło. Rysunek B. przedstawia wyniki treningu dla danych odczytywanych w źle wybranych punktach pomiarowych. Po treningu kilkakrotnie dłuższym ( cykli) zbliżono się zaledwie do dokładności uzyskanej natychmiastowo dla sieci dużo uboższej (2_2_2).
76 78 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień A. B. Rys Zgodność odpowiedzi sieci z wielkościami oczekiwanymi dla zbioru wzorców uczących i dla zbioru wzorców testujących. Rysunek A. przedstawia sytuację, w której użyto wiekszą niż potrzebna liczbę odczytów wartości funkcji w (cztery punkty odpowiadające czterem neuronom w warstwie wejściowej). Rysunek B. przedstawia sytuację, w której sieć uczona była ubogim zbiorem danych zawierających jednak, tak jak poprzednio (prawidłowo), dwa odczyty wartości w.
77 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 79 A. B. Rys Zgodność odpowiedzi sieci z wielkościami oczekiwanymi dla zbioru wzorców uczących i testujących, dla neuronu X 1. Rysunek A. przedstawia sytuację, w której użyto wiekszą niż potrzebna liczbę odczytów wartości funkcji w (cztery punkty odpowiadające czterem neuronom w warstwie wejściowej). Rysunek B. przedstawia sytuację, w której sieć uczona była ubogim zbiorem danych zawierających jednak, tak jak poprzednio (prawidłowo), dwa odczyty wartości w.
78 80 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Sieć neuronowa jako wzór aproksymacyjny dla dowolnego układu punktów obserwacji wartości funkcji Można przekonać się, że formułę (3.43) pozwalającą na obliczenie pierwiastków trójmianu na podstawie zaobserwowanych wartości tego trójmianu, można skonstruować numerycznie dla przypadku ogólnego, dla dowolnie wybranych punktów obserwacji wartości funkcji. Punkty obserwacji wartości funkcji w przypadku doświadczenia wirtualnego to, oczywiście, punkty pomiarowe w przypadku doświadczenia rzeczywistego. Jest to zadanie trudniejsze, dlatego warto sprawdzić, jak przebiegać będzie aproksymacja relacji odwrotnej w tym przypadku. Na wejściu sieci należy podać dane dotyczące par {x, w(x)}. Trzeba podać minimum dwie takie pary obserwacji. Warstwa wejściowa będzie zawierać cztery neurony, warstwa wyjściowa, jak poprzednio, dwa neurony: pierwiastki trójmianu, dla których obliczono w(x) w punkcie x. A. B. Rys Wyniki uczenia sieci o budowie 4_7_6_2. Na wejściu dwie pary (x,w(x)) dla dowolnej pozycji punktów pomiarowych (a nie ustalonej, jak poprzednio i jak zazwyczaj). Rysunek A. przedstawia wynik treningu, rysunek B. przedstawia odpowiedź sieci w trybie przywołania (recall mode) dla zbioru wzorców walidujących. Okazuje się, że można dobrać sieć tak bogatą, że będzie możliwe aproksymowanie relacji odwrotnej w tym przypadku.
79 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 81 A. B. Rys Wyniki uczenia sieci o budowie 4_7_6_2. Na wejściu dwie pary {x, w(x)} dla dowolnej pozycji punktów pomiarowych (a nie ustalonej, jak poprzednio). Rysunek A. przedstawia wynik treningu dla X 1 ; rysunek B. wynik treningu dla X 2 (zoom dla części wzorców uczących). Dokładność aproksymacji, jaka poprzednio uzyskiwana była za pomocą sieci 2_5_2, można uzyskać po wytrenowaniu sieci o budowie 4_7_6_2. Na wykresach poniżej przedstawiono wyniki dla sieci o takiej budowie.
80 82 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Oczywiście, w tym wypadku baza danych eksperymentalnych musi być większa lub należy użyć procedur zatrzymujących uczenie w momencie wzrostu błędu obliczonego dla zbioru przykładów testujących. Zastosowanie SSN do obliczania pierwiastków wielomianów Powyższe rozważania pozwalają prawdopodobnie zaproponować metodę poszukiwania miejsc zerowych wielomianów wyższych stopni. Mając postać iloczynową wielomianu stopnia n n n i (3.45) i= 1 ( ) = ( ) w x x x znamy jego pierwiastki x i i możemy łatwo policzyć współczynniki a i przy x w potędze i: i a : w ( x) = ax ; (3.46) i n n i= 0 według prostego systemu wzorów, na przykład: dla i = 2: a0 xx 1 2 = ; a ( x x ) i = + a = dla i = 3: a0 = x1x2 x3 ; a1= xx 1 2+ xx 2 3+ xx 1 3 a = x + x + x a 3 = 1 ( ) itd... (3.47) Losując wartości x i możemy każdemu zbiorowi pierwiastków przypisać ciąg współczynników wielomianu. Wprowadzając te współczynniki na wejście sieci, zaś pierwiastki na wyjście sieci (jako target w uczeniu z nauczycielem), możemy wytrenować sieć tak, że jeśli istnieje zależność funkcyjna pomiędzy a i a p i, to sieć może ją aproksymować z dowolną dokładnością (zależną tylko od ilości neuronów, połączeń pomiędzy nimi oraz architektury sieci). W ten sposób możemy obliczać pierwiastki wielomianu dowolnego stopnia bez użycia wzorów, które już dla wielomianu trzeciego stopnia są dość uciążliwe. Aby rozwiązać to zadanie, używając podobnej metody jak powyżej, można zastosować metodę unikania niejednoznaczności przybliżanej funkcji opisanej przez autora w pracy [13]. Naturalnie pojawiają się tu następujące pytania: Czy kalkulator pierwiastków oparty na sieci może być sprawniejszy numerycznie niż formuła symboliczna? Jak jego sprawność numeryczna zależy od
81 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 83 wymaganej dokładności obliczeń? Czy da się rozwiązać problem zakresu danych wejściowych? Czy można uogólnić zadanie na przypadek pierwiastków zespolonych? Dla pierwiastków wielomianu trzeciego stopnia odpowiedzi na wszystkie te pytania wydają się być twierdzące Algorytm aproksymacji funkcji niejednoznacznej W przykładzie analizowanym powyżej rozwiązano problem niejednoznaczności, zapewniając odpowiednią numerację elementów wzorca. Inną możliwością jest rozbicie aproksymowanej funkcji na funkcje kawałkami wzajemnie jednoznaczne. Ten algorytm jest również algorytmem autorskim, opracowanym na użytek zastosowania SSN do rozwiązania zagadnienia odwrotnego. Pierwotnie w artykule [43] algorytm ten użyty został do rozwiązania zagadnienia homogenizacji autokoherentnej, traktowanej jako zagadnienie odwrotne. Ciekawym elementem jest użycie jedynie SSN do badania zbioru wzorców i rozbicia go później na wygodne podzbiory, z których każdy może być aproksymowany jako funkcja wzajemnie jednoznaczna. Można to osiągnąć używając dwóch różnych typów sieci: sieci ubogiej, o niewielkiej ilości parametrów oraz sieci zbyt bogatej dla przybliżenia danego zbioru wzorców uczących takiej, aby przybliżenie było zbyt dopasowane (over-fitted). Takie wytrenowanie sieci pozwala na odwzorowanie dokładne wszystkich wzorców trenujących za pomocą sieci o wielkiej liczbie wag i biasów ( bogatej ). Oczywiście, zdolność predykcyjna takiej sieci jest równa zeru, jest to raczej magazyn danych. Przy pomocy takich dwóch sieci można jednak rozbić zbiór na podzbiory, danych, które mogą być traktowane jako rozłączne, wzajemnie jednoznaczne zależności funkcjonalne danych wyjściowych od danych wejściowych. Poniższy algorytm sortuje wzorce wyjściowe tak, aby uzyskać podzbiory wzorców wyjściowych, dla których SSN może być użyta jako aproksymator zależności funkcjonalnej. Załóżmy, że na wyjściu trenowanej sieci jest tylko jeden neuron. Przypadek aproksymacji funkcji skalarnej. To założenie jest związane z częstą w tej pracy i częstą w zastosowaniach (nie tylko związanych z aproksymacją relacji odwrotnej) techniką uczenia każdego neuronu wyjściowego oddzielnym, indywidualnym treningiem. Jest to oczywiście równoważne trenowaniu tylu sztucznych sieci neuronowych, ile jest wartości wyjściowych (neuronów) w warstwie wyjściowej sieci. Dyskusja ogólna racjonalności tego zagadnienia nie będzie podejmowana
82 84 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień w tej książce, ograniczymy się jedynie do przypadków oczywistych, kiedy trening sieci skalarnych jest łatwiejszy i gdy interpretacja fizyczna pozwala na to w sposób oczywisty, jak na przykład w przypadku aproksymacji gradientu funkcji skalarnej. Algorytm: Bieżący zbiór wzorców trenujących: {patt}={{inp}, target}. 1. Dla bieżącego zbioru wzorców trenujących, w przypadku niepowodzenia próby treningu dla racjonalnie dobranej SSN: a) Wytrenować maksymalną sztuczną sieć neuronową (maxssn: warstwy pośrednie dobrane tak, aby liczba parametrów sieci była co najmniej równa ilości wzorców) tak, aby błąd dla zbioru uczącego ustabilizował się. Jeśli błąd ten jest mały, ponowić próbę treningu ze zmienioną architekturą racjonalnie dobranej SSN. Jeśli pozostaje niedopuszczalnie duży, zaś korelacja jest poniżej 0,8 przejść do punktu b. b) Wytrenować minimalną sztuczną sieć neuronową (minssn: tylko warstwa wejściowa i warstwa wyjściowa) tak, aby błąd dla zbioru uczącego ustabilizował się. c) Uruchomić sieć minssn w trybie przywołania dla całego bieżącego zbioru wzorców. Sieć ta wygeneruje na wyjściu wartości różne od wartości oczekiwanych. d) Ustalić znak błędu: ei = min SSN@ { inp} -target i i e) Podzielić zbiór wzorców na dwa podzbiory {patt_a}, dla którego e i jest ujemny i {patt_b}, dla którego e i jest dodatni. 2. W pętli po wszystkich dotychczas wygenerowanych podzbiorach zbioru wzorców, dla każdego z podzbiorów: f) Przyjąć podzbiór jako zbiór bieżący {patt}={patt_i}. g) Powrócić do punktu 1. (początek algorytmu) i dokonać kolejnego podziału podzbioru. 3. Koniec algorytmu jeśli dla każdego podzbioru udaje się zakończyć z powodzeniem trening SSN. W wyniku działania algorytmu otrzymuje się zbiór poprawnych (w sensie opisanym powyżej w tym rozdziale) sztucznych sieci neuronowych, które dla podzbiorów wyjściowego zbioru wzorców aproksymują nieznaną zależność funkcyjną pomiędzy elementami ciągu wejściowego i wyjściowego.
83 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 85 W tabeli poniżej przedstawiono prostą ilustrację działania powyższego algorytmu, zastosowaną do rozwiązania następującego problemu jednowymiarowego: Załóżmy, że potrafimy obliczyć energię potencjalną pewnego układu mechanicznego f, zależną tylko od jednego parametru x, dla dowolnej liczby wartości próbnych tego parametru x i. Należy ustalić taką wartość tego parametru, dla którego energia f osiąga minimum. Weźmy następujący schemat postępowania: Przyjmujemy wartość próbną x i, następnie losujemy dx i małe w stosunku do x i, obliczamy w przybliżeniu pochodną centralną f w punkcie x i dla przyrostu dx i. Zadanie odwrotne formułujemy następująco: Zbudować i wytrenować sieć neuronową, która każdej parze {dx i f (x i )} przypisuje wartość parametru (argumentu) x i. Zauważmy, że sieć uczy się obliczania pochodnej, jako zagadnienia wprost, jeśli na wejściu pojawiają się wartości {dx i f (x i )}, zaś wartością oczekiwaną na wyjściu jest iloraz różnicowy centralny f (x i ), obliczony dla funkcji f (jeśli f jest zawsze ta sama, nie musi pojawić się nigdzie, jedynie w formułach obliczających wartość oczekiwaną na wyjściu). Dla pary {dx i 0} powinno się otrzymać w trybie przywołania odpowiedź sieci wskazującą na miejsce zerowe pochodnej, czyli wartość x, dla której f osiąga ekstremum. Zadanie takie może mieć sens wtedy, gdy nie znamy formuły dla f, zaś f jest wynikiem obliczeń MES lub inną metodą, dla przyjętej wartości parametru x. Jednak, dla potrzeb tej trywialnej ilustracji zaproponowanego algorytmu, przyjęto, że obliczenia funkcji wykonane zostaną za pomocą wzoru: ( ) = ( 1 ) ( 0.5 ) ( 1 ) f x x x x Zbudowano 100 wzorców trenujących, zapisanych wg schematu: {{dx i f (x i )}, x i }
84 86 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Tabela 3.1. Przebieg działania algorytmu aproksymacji funkcji niejednoznacznej przy użyciu sztucznej sieci neuronowej. Krok algorytmu, komentarz: Opis SSN Liczba połączeń Liczba wzorców uczących Korelacja dla zbioru uczącego Korelacja dla zbioru testującego 1.a. prawidłowa aproksymacja nie była możliwa 1.b. po nauczeniu sieci ubogiej obliczono błędy i stworzono dwa podzbiory zbioru wzorców subset_a i subset_b 2.a. dla podzbioru subset_a, prawidłowe wytrenowanie osiąga się natychmiast 2.b. dla podzbioru subset_b, prawidłowe wytrenowanie osiąga się natychmiast 3.a. dla podzbioru subset_a, w przypadku 0,0 dla drugiego neuronu warstwy wejściowej otrzymuje się x 1 = 43E-2 (dokładna wartość powinna być równa 0,43425); 3.b. dla podzbioru subset_b, w przypadku 0,0 dla drugiego neuronu warstwy wejściowej otrzymuje się x 2 = -76E-2 (dokładna wartość powinna być równa -0,7676). {2,8,8,1} /0 0, {2,2,1} 6 100/0 0, {2,3,2,1} 14 38/10 0,9991 0,9989 {2,3,2,1} 14 42/10 0,9987 0,9978 {2,3,2,1} ,9871 {2,3,2,1} ,9910 Przebieg obliczeń przedstawiony jest w tabeli 3.1 i zilustrowany na rysunkach 3.17 i 3.18.
85 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 87 1,5 1 0,5 0-3,25-2,25-1,25-0,25 0,75-0,5 subset_a subset_b apr. uboga -1-1,5 Rys Na rysunku przedstawiono ilustrację kroku 1.b. w tabeli i w opisie algorytmu. Wyniki treningu ubogiej sieci dzielą zbiór danych uczących na dwa podzbiory subset_a i subset_b. Na osi pionowej wartość zmiennej niezależnej x, na osi poziomej wartości przyjmowane przez pochodną. Rys Dwa rozłączne podzbiory danych uczących, dla których otrzymano dwie różne sieci o architekturze SSN_2321, każda z nich odpowiada w trybie recall innej wartości miejsca zerowego pochodnej. Na osi pionowej wartość zmiennej niezależnej x, na osi poziomej wartości przyjmowane przez pochodną Przykład zastosowania metody sztucznych wzorców weryfikujących W tym podrozdziale przedstawiony zostanie autorski sposób skutecznego uczenia sztucznej sieci neuronowej w sytuacji, kiedy liczba wzorców jest niewielka. W przykładzie analizowanym powyżej nie było problemu z uzyskaniem
86 88 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień dużej ilości wzorców uczących (par wejście - wyjście ). W przypadkach, gdy wzory uczące są rezultatem rzeczywistego pomiaru w laboratorium, ich uzyskanie jest często kosztowne i czasochłonne. W takim wypadku należy przeprowadzić aproksymację dla małej liczby danych wzorców. Powyżej przedstawiono wykresy dla sieci, którą uczono na zbiorze czterokrotnie mniej licznym niż zbiór, który dawał dobre rezultaty treningu dzięki swojej liczności. Jednak trening sieci w sytuacji, w której liczba wzorców jest mała, może wymagać specjalnej procedury. Możliwość wykorzystania niewielkiej liczby wzorców trenujących jest fundamentalna dla aplikowalności wniosków w rozdziale 4, poświęconym testowi FWD. Przykład takiego treningu przy małej liczbie wzorców, prowadzonego w myśl autorskiego algorytmu, zostanie pokazany poniżej. W pracy [49] przedstawiono zastosowanie sztucznej sieci neuronowej z warstwami ukrytymi do prognozowania właściwości mechanicznych odlewów wykonanych w określonych warunkach technicznych. W eksperymencie, który jest przedmiotem analizy, badano zależność trzech parametrów mechanicznych od ośmiu parametrów opisujących mikrostrukturę próbki oraz związek tych ośmiu parametrów z dwoma parametrami charakteryzującymi proces technologiczny. Przykłady tych zależności uzyskano wykonując 40 doświadczeń (współautorzy pracy [49]). Każde z tych doświadczeń było długotrwałe i kosztowne, stąd stosunkowo niewielka liczba danych eksperymentalnych. Zależność badanych wielkości od wielu (np. dwóch, pięciu, ośmiu) zmiennych niezależnych skłania do użycia sieci neuronowej jako narzędzia opracowania danych. Celem użycia sieci neuronowych do zapisu danych doświadczalnych było uzyskanie możliwości przewidywania wartości parametrów wyjściowych (charakterystyk mechanicznych lub parametrów opisu krystalograficznego) w funkcji zadanych parametrów wejściowych (odpowiednio parametrów opisu krystalograficznego oraz parametrów procesu technologicznego). W problemie prognozowania wartości na wyjściu sieci będą traktowane jako wyniki interpolacji pomiędzy uzyskanymi danymi doświadczalnymi dla wielowymiarowego wektora danych wejściowych, który nie jest identyczny z żadnym z wektorów danych wejściowych użytych w doświadczeniu. W tym sensie sieć neuronową użyto jako niesymboliczną formułę uogólniającą wyniki badań doświadczalnych, czyli jako rodzaj numerycznego nomogramu. W pracy [49] przedstawiono analizę tego zagadnienia za pomocą sieci neuronowych trenowanych na części zbioru danych (30 doświadczeń), używając pozostałych dziesięciu jako zbioru testującego. Na użytek tego przykładu
87 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 89 wykonano następujący eksperyment numeryczny, dotyczący pięciu skalarnych charakterystyk krystalograficznych odlewu i trzech jego parametrów wytrzymałościowych, dla których dysponowano trzydziestoma danymi pomiarowymi. Zdefiniowano sztuczny wzorzec testujący tak, że każdy jego element ma wartość pośrednią (λ = 0,5) między dwoma sąsiednimi, wybranymi losowo wzorcami uczącymi. Każda zmienna niezależna (wejście sieci) wzorca testującego jest pośrednią między dwoma kolejnymi zmiennymi tego samego typu. To samo dotyczy trzech zmiennych zależnych (wyjście sieci) 5. W ten sposób, powstało 17 sztucznych wzorców testujących. To bardzo bogaty zbiór testujący i przy tym żaden zestaw danych doświadczalnych nie zmarnował się. Sieci o różnej liczbie neuronów w warstwie ukrytej trenowano do uzyskania stopnia korelacji 0,999 i błędu RMS mniejszego niż 0,1%, startując z różnych początkowych wartości wag połączeń i biasów. Ponadto zdecydowano się zróżnicować architekturę trenowanych sieci w ten sposób, że uczono sieć z trzema neuronami wyjściowymi, a następnie trzy niezależne sieci z jednym neuronem wyjściowym, oddzielnie dla każdej zmiennej zależnej. Następnie wykonywano test z użyciem sztucznego zbioru testującego. Okazało się, że począwszy od liczby 4 neuronów w warstwie ukrytej, w wyniku testów na sztucznym zbiorze weryfikacyjnym otrzymywano różne wartości wyjściowe dla różnych, zawsze dobrze wytrenowanych, sieci. Dla liczby neuronów ukrytych równej 3 ta rozbieżność była najmniejsza. Dla liczby neuronów ukrytych mniejszej od 3 nie udawało się uzyskać założonego, wysokiego stopnia korelacji i małego błędu RMS. Wobec tego, w myśl postulatu 3, uznano, że w opisanym problemie lepiej jest obliczać niezależnie każdą składową aproksymowanego wektora. Przyjęto, że zdolność sieci 531 do interpolacji bardziej zasługuje na zaufanie niż sieci o większej liczbie neuronów w warstwie ukrytej. Na marginesie powyższych rozważań, dotyczących jakości aproksymacji funkcji wielu zmiennych przez sieć neuronową, przedstawiono wykres jednego z parametrów wytrzymałościowych w funkcji jednego z ośmiu parametrów opisu krystalograficznego. Sieć neuronowa o budowie 841 jest tu przykładem uogólnionego nomogramu. Dysponując taką siecią i odpowiednim programem do uruchamiania jej w trybie przywołania można uzyskać wykres zależności badanego parametru od dowolnej zmiennej niezależnej, przy dowolnych wartościach pozostałych zmiennych. Oczywiście, wykresy dwuwymiarowe można 5 Dla jednowymiarowego zadania taka interpolacja pomiędzy sąsiednimi wynikami jest łatwa do zinterpretowania. Dla problemu wielowymiarowego mniej oczywista.
88 90 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień uzyskać równie łatwo. Wykresy podobne oraz metoda sztucznego wzorca weryfikującego nie została opisana w [49], można tam jednak znaleźć wszelkie dane, niezbędne do szczegółowego przeanalizowania sensu praktycznego przeprowadzonych obliczeń neuronowych. sieć 531 dla pierwszej wartości wyjściowej pierwszy węzeł wyjściowy sieć dane sieć_1 sieć_2 sieć_ dane sieć_1 sieć_2 sieć_3 sieć 531 dla drugiej wartości wyjściowe dane sieć_ 1 sieć_ 2 drugi węzeł wyjściowy sieci dane sieć_1 sieć_2 sieć_3 Rys Dla dwu różnych topologii dobrze wytrenowanych sieci, uzyskano różne odpowiedzi sieci bogatszej podczas testowania sztucznym zbiorem weryfikacyjnym. Pokazano to dla trzech sieci trenowanych z różnymi wagami początkowymi. Współautorzy pracy [49], będący użytkownikami przedstawionego tu zapisu danych doświadczalnych oceniają, że interpolacja za pomocą SSN przybliża prawidłowo w sensie fizycznym zależności pomiędzy wielkościami, będącymi przedmiotem eksperymentów. Do rozwiązania powyższych przykładów użyto programu Qnet. Można też zastosować jakikolwiek inny program.
89 ROZDZIAŁ 3. Sztuczna sieć neuronowa jako narzędzie rozwiązania zagadnienia odwrotnego 91 równy podział równy podział Rys B jest jednym z ośmiu parametrów wejściowych wytrenowanej sieci, pozostałe siedem parametrów miało wartości ustalone. linia 7 i linia 21 oznacza, że wartości siedmiu parametrów są takie, jak zapisano w linii 7 lub 21 w bazie wzorców. A1 jest jednym z parametrów wytrzymałościowych zależnych, których zachowanie się w funkcji danych krystalograficznych było przedmiotem eksperymentów.
90 Rozdział 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów dynamicznych (FWD) stosowanych w mechanice nawierzchni 4.1. Opis impulsowego testu dynamicznego FWD Ugięciomierz FWD (Falling Weight Deflectometer) jest instrumentem służącym do wykonywania impulsowych testów dynamicznych w celu zbadania jakości nawierzchni komunikacyjnych. Testy te należą do grupy nieniszczących badań in situ, są powszechnie stosowane do oceny parametrów mechanicznych oraz do oceny jakości warstwowych struktur drogowych, posadzek przemysłowych, nawierzchni lotniskowych i innych podobnych obiektów. Jest to metoda, dla której analiza odwrotna jest podstawowym, a właściwie jedynym narzędziem interpretacji wyników. Ugięcie nawierzchni reakcja na przyłożone obciążenie dynamiczne jest w tej metodzie wykorzystywane do uzyskania, drogą analizy odwrotnej, informacji o właściwościach materiału i jakości strukturalnej (stopień połączenia warstw, ich stan spękania) badanej nawierzchni. Ugięcie wywołane jest obciążeniem impulsowym od spadającej masy (siły wymuszające ugięcie wahają się w granicach od 7 kn do 120 kn). Ugięcia te mierzone są w kilku punktach (6 lub 9 punktów) za pomocą geofonów zamocowanych na sztywnym wsporniku, wzdłuż odcinka linii prostej, w stałych odległościach. Wspornik ten oraz aparatura uwalniająca impuls dynamiczny zamontowane są zazwyczaj na pojeździe. Pozwala to na wykonanie pomiarów w wielu punktach drogi, pasa startowego lub posadzki. Na rysunku 4.1 przedstawiono pojazd do wykonywania testów, należący do jednej z polskich uczelni. Określenie parametrów mechanicznych kilku warstw nawierzchni i wielowarstwowego podłoża dokonuje się drogą minimalizacji różnicy między zmierzoną wartością odkształcenia oraz wartością odkształcenia wynikającą z rozwiązania pewnego modelu teoretycznego, opisującego odpowiedź nawierzchni na wymusze-
91 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 93 nie dynamiczne. To odkształcenie, obliczone teoretycznie, jest oczywiście funkcją parametrów mechanicznych, które opisują strukturę warstwową w ramach założonej teorii. Zidentyfikowane parametry mechaniczne powinny zapewnić minimum zdefiniowanego powyżej błędu w sensie najmniejszych kwadratów. Różne algorytmy optymalizacji i programy numeryczne wykorzystywane są w tej procedurze minimalizacji. Różne modele teoretyczne nawierzchni, w których ugięcie powierzchni może być obliczone jako rozwiązanie zagadnienia wprost, są proponowane w literaturze. Zwykle, przy konstruowaniu modelu teoretycznego, zakładane są drastyczne uproszczenia dotyczące opisu rzeczywistej pracy nawierzchni. Ugięcia teoretyczne obliczane są w oparciu o teorię warstwowej półprzestrzeni sprężystej, rozpatrywane jest zwykle zagadnienie statyczne. Warstwy mogą być połączone doskonale lub, alternatywnie, naprężenia ścinające, proporcjonalne do względnych przemieszczeń pomiędzy dolną i górną powierzchnią przyległej warstwy, mogą być elementem modelu. Jest oczywiste, że zarówno temperatura, gradienty temperatury, wilgotność materiałów nawierzchni warstwowej mogą wpływać na wyniki testów FWD. Rys Fotografia urządzenia do wykonywania impulsowego testu dynamicznego FWD. Charakterystyka geometrii nawierzchni w przekroju poprzecznym: liczba warstw, grubość warstwy, liczba typów materiałów konstrukcyjnych, rodzaje gruntów podłoża są zwykle traktowane jako elementy zestawu danych. Zazwyczaj, w wyniku testu ustala się moduły sprężystości Younga i współczynniki Poissona warstw nawierzchni.
92 94 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień h 1,E 1 h 2,E 2 h 3,E 3 P w Rys Schemat urządzenia do wykonywania impulsowego testu dynamicznego FWD. Niewielkie trójkątne symbole przedstawiają geofony do mierzenia ugięcia nawierzchni, umocowane na ramie deflektometru. Czerwona strzałka oznacza miejsce przyłożenia obciążenia nawierzchni spadającą masą. Przedstawiono trójwarstwową nawierzchnię i najczęściej identyfikowane parametry dla znanych (zwykle trzech) grubości warstw. Struktura SSN najbardziej naturalnej dla rozwiązania problemu odwrotnego związanego z testem FWD powinna być następująca: W warstwie wejściowej powinno się znaleźć przynajmniej tyle neuronów, ile jest geofonów w deflektometrze. Neurony te przyjmują wartości pomierzonych ugięć. Dla przypadku ogólnego (w tym sensie, że pozwalającego na identyfikację wartości parametrów dla nawierzchni wielowarstwowej, a nie jedynie pewnej aktualnie badanej nawierzchni) dodatkowe neurony powinny przyjmować wartości grubości poszczególnych warstw. Liczba tych neuronów to oczywiście liczba warstw nawierzchni. Neurony wyjściowe sieci przyjmują wartości parametrów mechanicznych kolejnych warstw. Powinno ich być tyle, ile jest parametrów w każdej warstwie. W praktyce identyfikuje się zwykle moduł Younga i współczynnik Poissona. Można przyjąć, wobec tego, że warstwa wyjściowa zawiera po dwa neurony dla każdej warstwy. Wygodnie jest również trenować oddzielne sieci dla każdej warstwy. W tej pracy udało się wytrenować sieci jednowarstwowe, z (co najwyżej) dziewięcioma neuronami w warstwie ukrytej. Trening powinien być prowadzony z uwzględnieniem faktu, że liczba danych jest mała. Wobec tego liczba połączeń synaptycznych jest zwykle porównywalna z liczbą wzorców, a co za tym idzie, kryterium zatrzymania algorytmu uczącego powinien być wzrost miary błędu przybliżenia dla zbioru wzorców testujących. Oczywiście, jeśli podczas eksperymentu notowane są inne jeszcze czynniki wpływające na wartości odczytów, te wartości powinny znaleźć się na wejściu sieci, tym samym liczba neuronów wejściowych powinna odpowiednio wzrosnąć.
93 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów Wykrywanie miejsc osłabienia podłoża za pomocą testu FWD jako rozwiązanie zagadnienia odwrotnego W przedstawionym tu eksperymencie numerycznym przedstawiono przykład relacji odwrotnej zdefiniowanej i efektywnie aproksymowanej numerycznie przy pomocy SSN dla problemu wprost opisanego przez równanie różniczkowe czwartego rzędu. W tym przypadku będzie to równanie belki na podłożu sprężystym. Jest to, jak wiadomo, równanie różniczkowe zawierające czwartą pochodną funkcji ugięcia belki. To, co wydaje się szczególnie interesujące z intuicyjnego punktu widzenia, to fakt, że akcja testowania doświadczalnego (przyłożone siły skupione na belce lub równoważne impulsowi obciążenie rozłożone na krótkim odcinku belki) dotyczą trzeciej lub czwartej pochodnej funkcji ugięcia, którą można zaobserwować w eksperymencie. Wydaje się zatem, że tego rodzaju zastosowanie może być uważane za studium najgorszego przypadku. Opiszmy teraz rozważany test. Siła od spadającej masy, za pośrednictwem płytki dynamicznej (FWD), przyłożona jest jako impuls dynamiczny do nawierzchni. Odpowiedź układu nawierzchnia-podłoże gruntowe na przyłożone obciążenie, wyrażona przez ugięcie nawierzchni, mierzone w kilku punktach, zawiera informację o właściwościach materiałów i jakości wykonania nawierzchni. Zwykle określa się parametry mechaniczne warstw wielowarstwowej struktury. W przypadku tego eksperymentu numerycznego odpowiedź nawierzchni analizowana będzie w celu ustalenia jakości podbudowy (podłoża). W szczególności celem badania będzie ocena zmienności właściwości tego podłoża, wykrycia miejsc, w którym w podłożu występują grunty słabsze. Zagadnienie to inspirowane było problemem praktycznym oceny niejednorodności podłoża pasa startowego łódzkiego lotniska im. W. Reymonta na Lublinku. Jednak, wobec niedostatecznej liczby danych pomiarowych i odstąpienia od zamiaru szczegółowych badań za pomocą ugięciomierza FWD, zdecydowano się na symulację numeryczną spodziewanych wyników (niezrealizowanych) pomiarów dla potrzeb tego przykładu. Analizę tę należy zatem traktować jako analizę jakościową możliwości wykrycia odcinka podłoża o mniejszej sztywności za pomocą testu dynamicznego FWD. W analizie odwrotnej, związanej z tą metodą pomiaru, dokonuje się minimalizacji średniego kwadratu różnicy pomiędzy zmierzoną wartością ugięcia w(x) oraz teoretycznym ugięciem powierzchni obiektu drogowego. Ugięcie to jest oczywiście funkcją parametrów mechanicznych, które opisują strukturę warstwową w ramach założonej teorii. Zidentyfikowane parametry mechaniczne powinny zapewnić minimum określonego powyżej
94 96 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień funkcjonału. Należy podkreślić, że również potrzeba zweryfikowania możliwości przeprowadzenia analizy odwrotnej, dotyczącej sztywności podłoża, była motywacją do przeprowadzenia tego eksperymentu numerycznego. W większości znanych przykładów zagadnienia odwrotnego zastosowanego do obliczenia ugięcia belki lub płyty, dotyczy ono geometrii układu, położenia otworów w płycie, drgań własnych i wektorów własnych, czyli wielkości bezpośrednio związanych raczej z samym ugięciem, niż z jego czwartą pochodną. Ugięcie teoretyczne powinno być obliczane w oparciu o teorię sprężystego pasma płytowego. W tym przykładzie uznano, że jakościowe korzyści poznawcze pozostaną takie same, jeśli rozpatrzy się sprężystą belkę na podłożu Winklera. Zauważmy, że wobec takiego sformułowania zagadnienia, ustalenie ewentualnych parametrów warstw belki jest niemożliwe. Przyjęte w obliczeniach sztywności to pewne sztywności efektywne warstwowej belki. Rozważmy nieskończoną belkę o jednostkowej szerokości, spoczywającą na jednorodnym podłożu. Jednorodność ta dotyczy jednak kierunku prostopadłego do belki (w głąb gruntu). Zakładamy, że grunt zmienia skokowo swoją sztywność w pewnych miejscach wzdłuż osi belki. Skok sztywności następuje na skończonym odcinku o długości LD. Jest to bardzo częsty przypadek ewentualnego istnienia odcinka podbudowy, który nie został prawidłowo zagęszczony lub ułożony został na odcinku słabego gruntu (w poprzek cieku lub dawnego wykopu). Z drugiej strony, nie jest to standardowy przykład zastosowania testu dynamicznego FWD. Test FWD jest przede wszystkim stosowany do określenia poprzecznej budowy struktury warstwowej nawierzchni. Wobec tego, proponowane rozwiązanie może być interesujące również z praktycznego punktu widzenia. Podłoże belki opisane jest sprężystym, liniowym modelem Winklera. Poniższe sformułowanie nawiązuje do nomenklatury wprowadzonej w rozdziale drugim. Określono je równaniem różniczkowym i warunkami brzegowymi. Model M: ( ) ( ) ( ) ( ) 4 dw 4 p x k x x Ω : ( x) + λ w( x) = gdzie λ( x) = 4 4 (4.1 dx EJ x EJ x 1 ) dw dw w( x = l 1) = 0, ( x = l1) = 0 w( x= l2) = 0, ( x= l2) = 0 (4.1 2 ) dx dx W powyższych równaniach: oś 0x jest zgodna z osią belki, jej początek przyjęto w miejscu skoku sztywności podłoża Winklera tak, że cały obszar o mniejszej sztywności leży na lewo od początku układu. x jest współrzędną punktu na osi belki, w(x) jest małym ugięciem belki, EJ jest stałą (niezależną od x) sztywnością
95 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 97 giętną belki, k(x) jest sztywnością elastycznego podłoża Winklera, o której zakłada się, że może zmieniać się wzdłuż belki. p(x) jest obciążeniem zewnętrznym przyłożonym wzdłuż osi do belki, r(x) jest reakcją podłoża Winklera (sprężyste więzy Winklera nie są jednostronne w dalszych obliczeniach): ( ) k( x) w( x) r x = (4.2) Ni eskończone pasmo Schemat układu geofonów na belce ugięciomierza FWD P w 8 x L w 1 w 2 w 8 w 9 x k D =η k η<1 L D L Sztywność podłoża =k Rys Schemat statyczny belki na podłożu z osłabieniem oraz układ pomiarowy deflektometru FWD. W tym przypadku sformułowania (4.1 1 ), zapisanego dla testu FWD, p(x) jest deltą Diraca pomnożoną przez P w, przyłożoną w odległości L, mierzonej od początku skoku sztywności podłoża. Zgodnie z powszechnie przyjętą praktyką interpretacji testu FWD, zakładamy jedynie statyczne działanie siły. Przedstawiono to na rys Zadanie praktyczne jest następujące: znaleźć współczynnik η pogorszenia jakości podłoża gruntowego, długość segmentu L D, na którym występuje osłabienie, oraz współrzędną L początku skoku sztywności podłoża, odpowiadające zarejestrowanemu ciągowi odczytów z geofonów. {w1,, w9}. Łatwo określić problem wprost związany z modelem M: Załóżmy, że ograniczamy się do przypadku, kiedy sztywność gruntu jest zmienna skokowo, tak jak to przedstawiono na rysunku 4.3. Relacja wprost może być zapisana w postaci:
96 98 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień ( l l ) lx e A1sin x + B1cos x dla x LD lηx lηx e ( A2sinlηx + B2cos lηx ) + e ( C2sinlηx + D2cos lηx ) dla LD < x < LD L w( x) = lηx lηx e ( A3sinlηx + B3coslηx ) + e ( C3sinlηx + D3coslηx ) dla LD L < x < 0 lx e ( C4sinlx + D4coslx) dla x > 0 (4.3 1 ) gdzie oznaczono: λ k EJ x ηk = 4, = 4 (4.3 2 ) λ η ( ) EJ ( x) zaś współczynniki { A1, B1, A2, B2, C2, D2, A3, B3, C3, D3, C4, D 4} dobrane są tak, aby równanie (4.1 1 ) zostało spełnione (wystarczy, oczywiście, spełnić warunki ciągłości w(x), jej pierwszej i drugiej pochodnej, oraz siły tnącej w punktach podziałów rozwiązania na segmenty). Wzór (4.3 1 ), jak można zauważyć, zapisany jest dla sytuacji, kiedy ugięciomierz znajduje się bezpośrednio nad osłabionym odcinkiem podłoża (siła wymuszająca reakcję belki spada wewnątrz osłabionego odcinka). Wobec tego, że deflektometr mierzy ugięcie z jednej strony siły wymuszającej, możliwe są dwa inne przypadki: przypadek, gdy punkt przyłożenia siły jeszcze nie znalazł się nad osłabionym odcinkiem i taki przypadek, kiedy punkt przyłożenia siły jest już poza osłabionym odcinkiem. Te trzy przypadki zostały przeanalizowane poniżej, jednak zapis rozwiązania przytoczono tylko dla pierwszego z nich. Wyrażenie (4.3.1) jest relacją wprost M związaną z modelem M, zapisaną niemal explicite (jedynie wzory na współczynniki A,, D są niemożliwe do zapisania w zwartej formie, choć oczywiście wyrażają się przez η, L D, L jako rozwiązanie układu 12 równań): ( ) ( η ) w x = M x,,l,l D (4.4) W ten sposób, można bezpośrednio obliczyć w( xdla ) każdego danego ciągu parametrów zadanego dla modelu M i dla każdego x (a więc również dla dziewięciu współrzędnych położenia geofonów). { ( D ) ( { η D} )} { } { η } w,, w = M x,, LL,,.., M x,, LL, (4.5) 1 9 j 1 j 9 j W ten sposób, wzorem (4.5) zdefiniowane jest j par odpowiadających sobie ciągów: {{ w 1,w 2,,w 8,w 9} { η,l,ld} j j} (4.6)
97 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 99 j = 1..J, J jest liczbą ciągów. Możemy przygotować (obliczyć dzięki znajomości relacji wprost M ) dowolną liczbę takich par. Każdą z tych par nazwano wzorcem ( pattern w terminologii SSN) będzie to wzorzec trenujący dla SSN. Jeśli uda się skonstruować relację (w tym wypadku funkcję dziewięciu zmiennych) taką, że: { η } { } j :,L,L = W w,,w (4.7) D j 1 9 j to będzie można otrzymać dla pewnego szczególnego ciągu ciągu danych pomiarowych otrzymanych w wyniku pomiaru ugięciomierzem FWD ciąg danych parametrów modelu M (oba te szczególne ciągi danych oznaczono odwróconym daszkiem):, LL, η = w,, W w (4.8) { D} { 1 9} Na mocy równania (4.5) drugi z ciągów w (4.8) będzie rozwiązaniem zadania praktycznego identyfikacji: znaleźć współczynnik η pogorszenia jakości podłoża gruntowego, długość segmentu L D, na którym występuje osłabienie oraz współrzędną L początku skoku sztywności podłoża, odpowiadające zarejestrowanemu ciągowi odczytów z geofonów: {w1, w2,, w8, w9}. Odpowiedniość można rozumieć w tym sensie, że dla każdej pary ciągów występujących w (4.7), w szczególności dla rozwiązania (4.8), miara odległości, zapisana poniżej, powinna być mała, poniżej zadanej, małej tolerancji t: j (( ) ( ) ( ) ) tr 2 L L tr 2 L L tr 2 12 j j j j Dj Dj η η + + < t (4.9 1 ) Wartości w powyższym wzorze określone są poniżej: { η, LL, } = W { w,, w} D j 1 9 j tr tr tr tr tr tr { ( ) ( { η D} )} { } = { η D} tr tr tr { } w,,w M x,,l,l,..., M x,,l,l 1 9 j 1 j 9 j (4.9 2 ) (4.9 3 ) η,l,l D to wartości próbne (indeks górny od trial ), losowane lub j wybrane tak, aby w obliczeniach wziąć pod uwagę sytuacje reprezentatywne dla problemu. Istnieje bogata literatura dotycząca próbkowania przestrzeni dopuszczalnych parametrów, w pracy [10] można znaleźć dalsze referencje. Problem odwrotny został więc sformułowany w następujący sposób:
98 100 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Znaleźć współczynnik η pogorszenia jakości podłoża gruntowego, długość segmentu L D, na którym występuje osłabienie, oraz pozycję L początku skoku sztywności podłoża odpowiadające zarejestrowanemu ciągowi odczytów z geofonów {w1, w2,, w8, w9}. Te trzy parametry powinny być takie, że dla tych trzech parametrów po zmierzonych wielkościach zestaw ugięć (dane z geofonów od konfiguracji FWD) będzie jak najbardziej zbliżony do rozwiązania problemu oznaczonego powyżej jako model M (4.1) i scharakteryzowanego parametrami η, L, L D. Jeśli relacja W może być rozumiana jako aproksymacja pewnej relacji ogólnej W, to można wierzyć, że { w w } W :,, : 1 9 { η,l,l } = W { w,,w } D j 1 9 j j ( ) ( ) Można zauważyć, że równanie (4.9.1) jest takie samo, jak równanie definiujące sieć neuronową, która dla danych wzorem (4.9.3) aktywacji neuronów warstwy wejściowej oblicza trzy aktywacje neuronów warstwy wyjściowej: η, L, L D. W tym sensie pewna SSN jest przybliżeniem relacji W. W= SSN W (4.11) 4.3. Wykrywanie miejsc osłabienia podłoża za pomocą testu FWD eksperyment numeryczny Dla schematu przedstawionego na rys. 4.3 dokładne rozwiązanie problemu wprost (4.3.1) znalezione zostało w postaci symbolicznej. W celu przygotowania wzorców uczących dla zbudowania SSN, obliczenia numeryczne wartości ciągów danych wejściowych dla sieci { w 1,,w9} j były powtarzane dla wartości tr tr tr próbnych parametrów zagadnienia { η,l,l D } j w potrójnej pętli, w której współczynnik osłabienia η przyjmował 10 wartości pomiędzy 0 a 0,9, L D było zmieniane 10 razy w zakresie od 1 m do 5 m, L przyjmowało 10 wartości od 0,1 do 2 m. Standardową odległość między geofonami L przyjęto jako 0,3 m. Dwa rodzaje sieci neuronowych zaproponowano w celu aproksymacji relacji odwrotnej. Dla każdej SSN warstwa wejściowa składała się z 9 węzłów wejściowych wartościowanych wielkościami obliczonych ugięć w punktach odpowiadających pozycji geofonów. Pierwszy wariant SSN ma na wyjściu dwa parametry: η i L D przyjęte dla wartości L = -L D. Wszystkie inne SSN miały tylko jeden neuron w warstwie wyjściowej, dla jednego z szukanych parametrów. Doświadczenie
99 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 101 numeryczne pokazało bowiem, że każda z szukanych wielkości jest identyfikowana z inną dokładnością na podstawie zebranych danych pomiarowych (numerycznych w procesie treningu sieci). Na rys. 4.4a i 4.4b przedstawiono wyniki treningu SSN z parametrami (odpowiednio) η i L D w warstwie wyjściowej. Okazuje się, że współczynnik osłabienia podłoża zidentyfikowano bardzo łatwo, błąd jest bardzo mały, zarówno dla uczącego, jak i testującego zestawu wzorców. Niestety, długość osłabionego segmentu jest bardzo trudna do ustalenia. Może to być skomentowane następująco: wpływ η na wyniki testu jest bezpośredni, reakcja podłoża jest proporcjonalna do samej, mierzonej funkcji (4.2), podczas gdy zmiana charakteru ugięcia na końcach osłabionego segmentu wprowadzona jest do modelu jako funkcja czwartej pochodnej obserwowanej w kilku punktach ugięcia (wszystkie niższe pochodne nie zmieniają wartości na końcach osłabionego segmentu (4.3.1)). To kolejna obserwacja wspierająca tezę, że w procesie uczenia sieci w celu rozwiązania zadania odwrotnego, odzwierciedlają się właściwości tego sformułowania, także te patologiczne, jak słaba zależność od pomierzonych danych czy niejednoznaczność sformułowania. Ciekawe obserwacje numeryczne dotyczą też przypadku, gdy wartości η dążą do 1 (dalsze pogorszenie wyniku treningu, wraz ze zmniejszającym się kontrastem pomiędzy odcinkiem osłabionym a resztą pasma). W tabeli 4.1 zestawiono parametry, które charakteryzują proces treningu sieci ANN_961 oraz ANN_962 z rozbiciem na zbiór uczący i testujący. W ostatnim wierszu podano rezultat otrzymany dla zbioru walidującego, kiedy sieć działa w trybie przywołania. Tabela 4.1 błąd RMS korelacja: Na wyjściu SSN: tylko η η oraz L D tylko L D tylko η η oraz L D tylko L D Zbiór uczący: 0, ,0791 0,082 0,9998 0,9710 0,9310 Zbiór testujący: 0, ,0801 0,091 0,9971 0,9511 0,9111 Zbiór weryfikujący: 0, ,0644 0,0818 0,9997 0,9581 0,9306 Na rys 4.7 przedstawiono porównanie zgodności zidentyfikowanej reakcji gruntu z reakcją rzeczywistą (taką, która była źródłem danych pomierzonych deflektometrem dziewięciu ugięć nawierzchni). Jest to ilustracja oceny dokładności procedury, podobna do tej, jaką pokazano na rys. 1.9 (w rozdziale 1). Sieć neuronowa, w tym przypadku o budowie SSN_962, działa tu w trybie recall. tr tr tr Dla wylosowanego zestawu parametrów uszkodzonej nawierzchni { η,l,l D }
100 102 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień otrzymano z wzorów (4.9.3) ciąg ugięć {w1,.., w9} (traktowanych umownie w tej pracy jako wynik eksperymentu, otrzymany przy rzeczywistym zastosowaniu ugięciomierza FWD). Ciąg ten wprowadzono na wejście wytrenowanej sieci. Dla próbnego ciągu wartości parametrów uszkodzonej nawierzchni {η = 0,475, 0, L D = 2,55} otrzymano na warstwie wyjściowej SSN współczynnik pogorszenia jakości η = 0,418 i długość segmentu osłabionego podłoża równą L D = 2,71 m. 6 LD, ANN_962 wartość wyjściowa SSN wartość wyjściowa SSN target learning test numer wzorca uczącego A. zgodność cel-odpowiedź, SSN_962, dla Ld learning test inp=out wartość oczekiwana na wyjściu sieci B. Rys Sieć neuronowa o budowie SNN_962 przybliżająca relację odwrotną dla obliczenia LD. Na rysunku A. przedstawiono odpowiedzi sieci porównane z wartościami oczekiwanymi dla zbiorów danych uczących i testujących dla kolejnych wzorców. Na rysunku B. porównano sygnał wyjściowy z oczekiwanym dla tych samych danych.
101 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 103 wartość wyjściowa SSN wartość wyjściowa SSN 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 ANN_962, dla eta target learning test numer wzorca uczącego A. zgodność cel-odpowiedź, SSN_962 dla eta learning test inp=out 0 0,1 0,2 0,3 0,4 0,5 wartość oczekiwana na wyjściu sieci B. Rys Sieć neuronowa o budowie SNN_962 przybliżająca relację odwrotną dla obliczenia η. Na rysunku A. przedstawiono odpowiedzi sieci porównane z wartościami oczekiwanymi dla zbiorów danych uczących i testujących dla kolejnego wzorca. Na rysunku B. porównano sygnał wyjściowy z oczekiwanym dla tych samych danych.
102 104 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień SSN_941, eta 0,55 wartość wyjściowa SSN wartość wyjściowa SSN 0,5 0,45 0,4 0,35 0,3 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 target learning test numer wzorca uczącego A. zgodność cel-odpowiedź, SSN_941 dla eta learning test inp=out 0 0,2 0,4 0,6 0,8 1 wartość oczekiwana na wyjściu sieci B. Rys Sieć neuronowa o budowie SNN_941 przybliżająca relację odwrotną dla obliczenia η. Na rysunku A. przedstawiono odpowiedzi sieci porównane z wartościami oczekiwanymi dla zbiorów danych uczących i testujących dla części wzorców. Na rysunku B. porównano sygnał wyjściowy z oczekiwanym dla tych samych danych. Wykresy dokumentują idealną zgodność dla przypadku uczenia tylko współczynnika osłabienia.
103 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 105 2,5 SSN_961, L wartość wyjściowa SSN 2 1,5 1 0,5 0 Target learning test numer wzorca uczącego A. B. Rys Sieć neuronowa o budowie SNN_961 przybliżająca relację odwrotną dla obliczenia L, czyli początku osłabionego segmentu podłoża. Na rysunku A. przedstawiono odpowiedzi sieci porównane z wartościami oczekiwanymi dla zbiorów danych uczących i testujących. Na rysunku B. porównano sygnał wyjściowy z oczekiwanym dla tych samych danych. Proporcjonalna do ugięcia, skokowo zmienna reakcja podłoża dla danych wyjściowych, przedstawiona jest czarną linią na rys Reakcja podłoża dla parametrów zidentyfikowanych dzięki przybliżeniu zależności odwrotnej przedstawiona jest linią niebieską. Wyniki identyfikacji przy użyciu sieci wytrenowanej na 100 innych danych, wśród których nie było danych użytych
104 106 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień w eksperymencie numerycznym są ilościowo nieco inne, ale obraz uszkodzenia (skok reakcji jest dobrze widoczny) jest jakościowo bardzo wyraźny. Rys Porównanie prawdziwej reakcji podłoża i reakcji obliczonej na podstawie danych uzyskanych w trybie odpowiedzi odpowiednio wytrenowanej SSN. Niebieska linia prawdziwa reakcja (oczywiście, zgodnie z modelem Winklera proporcjonalna do ugięcia belki). Czarna linia reakcja obliczona na podstawie danych uzyskanych na wyjściu SSN, w odpowiedzi na ugięcia w 9 obserwowalnych punktach wprowadzonych na wejściu sieci. Przyjęto masę obciążnika FWD równą 10 kn. Reakcja gruntu na osi pionowej podana jest w [kn/m], na osi poziomej odłożono współrzędną x, mierzoną w metrach Możliwość zastosowania SSN do oszacowania parametrów podłoża na podstawie wyników testu FWD W kolejnej części tej pracy przedstawiony zostanie przykład numeryczny rozwiązania zagadnienia odwrotnego dla problemu uwarstwionej półprzestrzeni sprężystej, przedstawiony wcześniej w artykule [106]. W pracy [121] przedstawiono po raz pierwszy zastosowanie SSN dla interpretacji danych testowych uzyskanych dzięki metodzie FWD dla przypadku, kiedy badano dodatkowo wpływ wilgotności na wyniki pomiarów. Podobne zastosowania sieci neuronowych i algorytmów genetycznych do interpretacji impulsowych testów dynamicznych przedstawił [46].
105 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 107 Najważniejszym argumentem wspierającym zastosowanie sztucznych sieci neuronowych i analizy opartej na aproksymacji relacji odwrotnej jest możliwość związania predykcji wartości charakterystyk mechanicznych podłoża bezpośrednio z wynikami doświadczenia, bez konieczności analizy teoretycznej. Takie zastosowanie opisano w cytowanej powyżej pracy [121]. Główną trudnością takiego podejścia jest konieczność oparcia się na badaniach laboratoryjnych próbek badanej nawierzchni w procesie treningu sieci. Celem tego podrozdziału jest ustalenie, jaka powinna być minimalna liczność zbioru danych obserwacyjnych, aby można było wytrenować sieć. Jest to pytanie podstawowe, ma charakter projektowania eksperymentu, powinno być elementem procedury stosowania SSN w technice eksperymentalnej w ogóle, nie tylko w badaniu nawierzchni metodą FWD. Jeśli liczba doświadczeń, koniecznych do wytrenowania sieci okaże się niewielka, metodę tę będzie można rekomendować firmom wykonującym testy. Odpowiedź będzie oparta jednak nie na zebranych danych rzeczywistych, ale na ich symulacji numerycznej. Oczywiście nie osłabi to wartości konkluzji, która, jak się okaże w tym wypadku, optymistycznie szacuje liczbę koniecznych danych eksperymentalnych na mniejszą niż 100 (jest to liczba wyników badań laboratoryjnych dla ustalenia wartości E oraz ν próbek nawierzchni pobranych z otworów kontrolnych). Poniższe obserwacje skłaniają dodatkowo do zastosowania SSN w badaniach nawierzchni metodą FWD. Odwołując się do analizy odwrotnej, bazującej na modelach teoretycznych, należy zdawać sobie sprawę, że wiele fundamentalnych nieścisłości obserwuje się w powszechnej praktyce interpretacji testu FWD: Przyjęty model teoretyczny jest zwykle modelem statycznym, podczas gdy charakter badania jest wyraźnie dynamiczny (to jest opisane w [ ]). W przyjętym modelu teoretycznym zwykle zakłada się liniowe i sprężyste zachowanie materiałów, podczas gdy prawdziwa odpowiedź na obciążenie impulsem od spadającej masy może być nieliniowa i niesprężysta. Model teoretyczny nawierzchni zbudowany jest w oparciu o teorię ośrodków ciągłych z ewentualnymi nieciągłościami tylko na powierzchniach granicznych pomiędzy warstwami. Rzeczywisty ośrodek, zarówno w obszarze podbudowy, jak i warstw konstrukcyjnych, zawiera obszary mikro i makro pęknięć, spękania te są również przedmiotem identyfikacji. Ich miarą jest zwykle degradacja modułu Younga identyfikowanego materiału. Pomiar dotyczy jedynie odwracalnej część odkształcenia, natomiast wnioski dotyczące czasu życia nawierzchni zależą bardzo wyraźnie od właściwości reologicznych materiałów.
106 108 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień W modelach dynamicznych idealizacja kształtu impulsu dynamicznego od spadającej masy jest zwykle bardzo uproszczona. Oznacza to, że dane uzyskane z eksperymentu dynamicznego, któremu poddano ośrodek często spękany lub ziarnisty o silnych właściwościach reologicznych, który zachowuje się nieliniowo w procesie obciążenia i odciążenia, służą do identyfikacji parametrów opisujących przyjęty model teoretyczny ośrodka ciągłego, liniowo sprężystego. Ta sytuacja nie jest jednak bardzo irracjonalna. W przyjętej praktyce projektowej kształtowanie nawierzchni jest pośrednio funkcją właśnie takiego modelu teoretycznego [66]. Identyfikacja parametrów w sensie takiego właśnie modelu jest więc w pewnym sensie usprawiedliwiona. W celu przezwyciężenia tych wymienionych powyżej niespójności, zaleca się w [174] stosować bardziej zaawansowane modele teoretyczne, przede wszystkim oparte na modelach numerycznych otrzymanych metodą elementów skończonych. Wybitni specjaliści w tej dziedzinie pracują nad sposobami korekty wyników dynamicznych tak, aby dopasować je do statycznych modeli. Wiele artykułów podejmuje temat oceny wpływu dynamicznego charakteru badania FWD na identyfikowane parametry (moduły) warstw konstrukcji nawierzchni [149], [174]. Alternatywnie, można skonstruować, z wykorzystaniem SSN, przybliżenie relacji między wybranym, istotnym parametrem projektowym (na przykład naprężenia normalne na granicy nawierzchni i podłoża) w funkcji zmierzonego ugięcia i ewentualnie wszystkich obserwowalnych czynników, które wpływają na wyniki badań impulsowym ugięciomierzem dynamicznym, takich jak temperatura, gradient temperatury, zawartość wody w porach i innych możliwych warunków dodatkowych. Jest to oczywiście zależność odwrotna w odniesieniu do bezpośrednich relacji, dla których ugięcie jest funkcją danych materiałowych, obliczane metodą wprost w modelu teoretycznym. W [121] SSN jest z powodzeniem stosowana w celu uwzględnienia gradientu temperatury i wilgotności materiałów, oraz określenia właściwości materiałów. Proponowane podejście jest bardzo obiecujące. Jak to napisano powyżej, najskuteczniejszą strategią byłoby zastąpienie modelu teoretycznego badaniami laboratoryjnymi próbek badanej nawierzchni i stworzenie odpowiednich korelacji pomiędzy wynikami testu FWD a parametrami warstw nawierzchni i ewentualnie podbudowy, przynajmniej dla najczęściej badanych struktur. Badanie jest wtedy całkowicie fenomenologiczne. Proponowane zastosowanie SSN może być skuteczne pod warunkiem, że można uzyskać wystarczającą liczbę danych uczących do wytrenowania SSN dla szerokiej klasy struktur układu nawierzchnia-podbudowa. Badania laboratoryjne właściwości warstw są drogie, czasochłonne i wykonywane jedynie jako badania walidujące
107 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 109 oceny otrzymane z rozwiązania zagadnienia odwrotnego. W praktyce testu FWD mamy do czynienia z niewielką liczbą przykładów uczących ze względu na ograniczoną liczbę testów laboratoryjnych, które można przeprowadzić na próbkach z odwiertów, wykonanych dla pomiarów grubości warstw. Celem tego opracowania jest ocena koniecznej liczby badań laboratoryjnych, jakie powinny zostać zgromadzone, aby można było wytrenować SSN dla uzyskania oszacowań parametrów mechanicznych warstw metodą aproksymacji zależności odwrotnej przez SSN. Systematycznie wykonywane badania laboratoryjne, stowarzyszone z wykonywanymi testami FWD, powinny tworzyć bazę danych przedsiębiorstw wykonujących takie badania. Powinny być, w miarę możliwości, upubliczniane. Należy podkreślić, że badania takie są wymagane i zawsze są wykonywane, choć dla niewielkiej liczby punktów, w których wykonywane są testy FWD. Proponujemy, aby wykorzystać takie dane do uczenia SSN. W niniejszym opracowaniu użyte zostały dane symulowane z dwóch modeli: numerycznego, w którym modelowano fragment uwarstwionej półprzestrzeni sprężystej za pomocą metody elementów skończonych oraz model oparty o rozwiązanie symboliczne, zaczerpnięte z [35]. Model płyty warstwowej na elastycznym podłożu Winklera zdaje egzamin jedynie dla nawierzchni jednowarstwowej na podłożu Winklera. Aby zidentyfikować parametry nawierzchni za pomocą modelu płytowego dla rozwiązania ciągu zagadnień wprost, należy użyć bardziej złożonego modelu płyty, w którym teoria płyty zbudowana jest w odniesieniu do jej górnej powierzchni a nie do powierzchni środkowej, zaś odkształcenia w kierunku poprzecznym do płaszczyzny płyty i odpowiadające im naprężenia są wzięte pod uwagę. W przypadku obydwu modeli, moduły Younga i współczynniki Poissona dla trzech warstw albo dwóch warstw i dodatkowo sztywność podłoża Winklera zostały prawidłowo zidentyfikowane dzięki zastosowaniu odpowiednio wytrenowanej SSN. Należy podkreślić, że ewentualne wymaganie dużej liczności zbiorów przykładów trenujących można złagodzić stosując metodę treningu przedstawioną w rozdziale trzecim. W SSN zastosowanych w tym podrozdziale, w warstwie wejściowej znajduje się 6 neuronów aktywowanych sześcioma pierwszymi danymi z 9 geofonów. Postąpiono tak, aby wykazać, że najmniejsza teoretyczna liczba neuronów dla trzech identyfikowanych warstw daje właściwe oszacowania stałych materiałowych. Ponadto w ten sposób porównano wyniki otrzymane z własnych eksperymentów numerycznych z wynikami tego rodzaju analizy wstecznej, uzyskanymi w pracy [121], gdzie użyto tylko sześciu gefonów. W kolejnych przykładach przyjęto tyle neuronów, ile jest geofonów w deflektometrze. Neurony te przyjmują wartości
108 110 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień pomierzonych ugięć. Nie rozpatrzono przypadku ogólnego, pozwalającego na identyfikację wartości parametrów dla nawierzchni wielowarstwowej o różnej grubości warstw, a nie jedynie dla pewnej aktualnie badanej nawierzchni. Dodatkowe neurony, które powinny przyjmować wartości grubości poszczególnych warstw (liczba tych neuronów to oczywiście liczba warstw nawierzchni), nie powinny skomplikować działania SSN, jednak proces przygotowania danych uczących mógłby być bardziej czasochłonny. Neurony wyjściowe sieci przyjmują wartości parametrów mechanicznych kolejnych warstw. Jest ich po dwa na warstwę, tj. tyle, ile jest parametrów w każdej warstwie. Są to moduł Younga i współczynnik Poissona. Wygodnie jest również trenować oddzielne sieci dla każdej warstwy. W tej pracy udało się wytrenować sieci jednowarstwowe, z (co najwyżej) 9 neuronami w warstwie ukrytej. Jest to wynik dużo lepszy niż w pracy [121], gdzie zastosowano sieć dwuwarstwową z 11 i 8 neuronami w pierwszej i drugiej warstwie ukrytej. Trening powinien być prowadzony z uwzględnieniem faktu, że liczba danych jest mała. Wobec tego, mimo że trzeba dobrać niewielką, możliwie jednowarstwową sieć, to i tak liczba połączeń synaptycznych jest zwykle porównywalna z liczbą wzorców. Wobec tego kryterium zatrzymania algorytmu uczącego powinien być wzrost miary błędu przybliżenia dla zbioru wzorców testujących. Atrakcyjność tego typu fenomenologicznego podejścia do zagadnienia polega również na tym, że w miarę pojawiania się kolejnych danych eksperymentalnych ta sama sieć może być weryfikowana przy użyciu tych danych lub trenowana ponownie z udziałem tych danych. Oczywiście, jeśli podczas eksperymentu notowane są inne jeszcze czynniki wpływające na wartości odczytów, te wartości powinny znaleźć się na wejściu sieci, tym samym liczba neuronów wejściowych powinna odpowiednio wzrosnąć Sformułowanie zagadnienia analizy wstecznej wyników testu FWD przy użyciu SSN i metody elementów skończonych Załóżmy, że ograniczamy się do przypadku, kiedy sztywność nawierzchni jest zmienna skokowo tak, że każda warstwa charakteryzuje się innym modułem Younga i innym współczynnikiem Poissona, tak jak to przedstawiono na rysunku 4.9. Używając metody elementów skończonych, relacja wprost może być przyjęta w postaci zbioru wyników obliczeń, wykonanych metodą elementów skończonych, w następującym formacie:
109 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 111 { w,w,w,w,w,w } MES@ { E,E,E,E } = (4.12) i 1i 2i 3i i gdzie przez w i oznaczono składową pionową wektora przemieszczenia w zaznaczonych na rysunku Y1 węzłach siatki metody elementów skończonych. Węzły te odpowiadają położeniom geofonów, wartości w tych miejscach odpowiadają wirtualnym pomiarom. Głębokość [m] Odległość od osi symetrii [m] a. b. Głębokość [m] Rys a. Model półprzestrzeni sprężystej z wyróżnionymi trzema warstwami nawierzchni o zróżnicowanych modułach Younga w ujęciu metody elementów skończonych. Siatka elementów skończonych oraz obciążenie i miejsca śledzenia przemieszczeń pionowych, b. Odkształcona siatka elementów skończonych. Ciąg { E 1i,E 2i,E 3i,Ei} to ciąg trzech wartości modułów Younga dla trzech warstw zaznaczonych na rysunku Y1, czwarta wartość to moduł Younga podłoża gruntowego. Wartości te przyjęto w wyniku losowania nr i. Ten sam indeks dotyczy.
110 112 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień ciągu rozwiązań. Inny sposób oznaczania podkreśla fakt, że moduły Younga dla warstw losowane są niezależnie od siebie, zaś ciąg wartości ugięć zawiera liczby, które nie są niezależne, wynikają z modelu, który zdefiniowany został w tym wypadku bardzo lakonicznie, rysunkiem siatki elementów skończonych i oczywistą znajomością tej procedury obliczeniowej dla osiowo symetrycznego zagadnienia półprzestrzeni sprężystej, w której wyróżniono trzy warstwy o zadanych grubościach, dla których rozwiązano zadanie statyki w zakresie sprężystym (jak zwykle przy interpretacji wyników FWD). oznacza działanie operacji obliczeniowych przeprowadzonych metodą elementów skończonych na zbiór danych modelu, z których wymieniono tylko te, które zmieniają się dla i-tej wersji obliczeń. Pozostałe dane, takie jak na przykład współczynnik Poissona czy obciążenie (naprężenie 1400 kpa), zaznaczone na małym fragmencie w sąsiedztwie osi symetrii pozostawały stałe dla wszystkich wariantów. Przyjęto ν = 0,25. W tak skrótowy sposób opisano relację wprost M będącą rozwiązaniem numerycznym związanym z modelem M, zapisanym (domyślnie) w formalizmie MES. Jeśli uda się skonstruować relację (w tym wypadku funkcję sześciu zmiennych) taką, że: { } { } i: E, E, E, E =W w, w, w, w, w, w (4.13) 1i 2i 3i i i to będzie można otrzymać dla pewnego szczególnego ciągu ciągu danych pomiarowych otrzymanych w wyniku pomiaru ugięciomierzem FWD ciąg wartości modułów Younga dla trzech warstw nawierzchni. W przypadku zastosowania sztucznej sieci neuronowej, którą można tak wytrenować, aby aproksymowała relację (4.13), można zapisać: E,E,E,E = w,w,w,w,w,w (4.14) { } { } { } j j j j j j j j j Indeksy j oznaczają, że równość ta ma miejsce dla j-tego ciągu pomiarów, lewa strona może być rezultatem trzech niezależnych obliczeń SSN w trybie przypomnienia, jeśli tak zostały te sieci przygotowane. Pomyślne uczenie sieci zagwarantowało, że spełniony jest, dla małej tolerancji t, warunek: j (( ) ( ) ( ) ( ) ) j 1 j 2 j 2 j 3 j 3 j j j E E + E E + E E + E E < τ (4.15) Wartości w powyższym wzorze określone są w równaniach (4.12) i (4.13). Oczywiście, zgodnie z twierdzeniem o tym, że SSN jest aproksymatorem funkcji, tolerancja ta może być dowolnie mała dzięki odpowiedniemu doborowi architektury sieci. Jest tak, jeśli tylko baza danych wzorców uczących jest odpowiednio
111 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 113 duża i prawidłowo skonstruowana. Tak jest w przypadku teoretycznym, opisanym powyżej. W przypadku rzeczywistym wzorce mogą zależeć od innej jeszcze zmiennej, nie branej pod uwagę w pomiarach, na przykład wilgotności warstwy. W takim przypadku trening sieci wykaże, że bez dodatkowych danych nie można uzyskać dowolnie małego błędu przybliżenia. Będzie to widoczne w trakcie treningu sieci. Przykład skonstruowano tak, że wyróżniono dwie zdecydowanie cienkie warstwy nawierzchni, o grubości łącznej 10 cm, warstwę o dominującej miąższości o grubości 25 cm. Podłoże gruntowe ma sztywność o wiele niższą niż warstwy nawierzchni. W dalszym ciągu eksperymentu numerycznego stwierdzimy, że na podstawie przykładów sztuczna sieć neuronowa bardzo łatwo uzyskuje informacje istotne, dotyczące sztywności nawierzchni. Obserwacja procesu treningu pozwoli interpretować zawartość informacyjną zbioru danych. Jest to ważna cecha rozwiązania zagadnienia odwrotnego za pomocą aproksymacji relacji odwrotnej. Przykład został tak dobrany, aby komentarze na ten temat mogły być czytelne, jednocześnie układ warstw i ich sztywności pozostają realistyczne Eksperyment numeryczny zastosowanie SSN do analizy odwrotnej wyników testu FWD Dla schematu przedstawionego na rysunku 4.9, problem wprost można sformułować następująco: Znaleźć pole przemieszczeń dla zagadnienia statyki (jakie zwykle rozpatruje się dla interpretacji wyników FWD) w osiowo symetrycznym obszarze półprzestrzeni sprężystej, w której wyróżniono trzy warstwy o zadanych grubościach, pod obciążeniem (naprężenie 1400 kpa) przyłożonym na małym obszarze w sąsiedztwie osi symetrii. W celu przygotowania wzorców uczących dla wytrenowania SSN, obliczenia numeryczne wartości ciągów danych wejściowych dla sieci { w 1,,w6} j były powtarzane dla wartości próbnych parametrów zagadnienia { E tr 1,E tr tr tr 2,E 3,E } j w poczwórnej pętli, w której wartości modułów Younga przyjmowały po 5 wartości pomiędzy MPa a MPa. Moduł Younga dla podłoża zmieniany był w granicach od kpa do kpa. Zwraca uwagę fakt, że uzyskane fragmenty czaszy ugięcia były jakościowo bardzo podobne. Jednak jest w nich zapisana cała istotna informacja o badanym obszarze, którą odkrywa sztuczna sieć neuronowa w procesie treningu. Przykłady danych kierowanych na wejście sieci zebrane są na rysunku 4.9.
112 114 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień 0-0, ,001 ugięcie [m] -0,0015-0,002-0,0025-0,003-0,0035-0,004 odległość od osi obciążenia [m] Rys Obliczone fragmenty ugięć powierzchni uwarstwionej półprzestrzeni sprężystej, wykorzystane jako dane wejściowe dla treningu SSN. Zwraca uwagę pozorna jakościowa jednorodność tych danych. We wszystkich sieciach trenowanych w celu aproksymacji relacji odwrotnej aktywności neuronów warstwy wejściowej przyjmowały obliczone wartości składowych pionowych przemieszczeń w punktach pod geofonami { w 1,,w6}. Z punktu widzenia interpretacji wartości aktywacji neuronów warstwy wyjściowej, wytrenowano następujące rodzaje sieci neuronowych: Sieci, w których warstwa wyjściowa składała się z czterech neuronów, którym jako wartość oczekiwaną przypisano elementy ciągu { E tr tr tr tr 1,E 2,E 3,E }. j Sieci, w których warstwa wyjściowa zawiera dwa neurony, ich wartości oczekiwane (target) to wartości modułów Younga trzeciej warstwy nawierzchni i moduł Younga podłoża. Inne rodzaje SSN miały tylko jeden neuron w warstwie wyjściowej dla jednego z szukanych parametrów. Udało się, w każdym przypadku, uzyskać sieci o niewielkiej liczbie neuronów w warstwie ukrytej, nie większej niż 6 neuronów. Wynik ten może być zaskakujący w zestawieniu z bardzo bogatą siecią zaproponowaną przez autora pracy [121]. Jak się wydaje, autor tej pracy nie szukał sieci optymalnej. W tej pracy kierujemy się w doborze architektury sieci zasadami opisanymi w rozdziale 2. Doświadczenie numeryczne pokazało, że każda z trenowanych sieci zachowuje się inaczej podczas procesu uczenia. Oto najciekawsze obserwacje
113 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 115 dotyczące treningu sieci w celu uzyskania relacji wiążącej ciąg pomiarów ugięć nawierzchni i moduły Younga warstw nawierzchni: Sieć aproksymująca jedynie moduł Younga dla gruntu podłoża gruntowego na podstawie sześciu pomiarów ugięcia uzyskuje bardzo szybko wysoki stopień wytrenowania. Zarówno dla zbioru testującego, jak i dla zbioru uczącego, korelacja jest na poziomie 0,99. Aproksymacja jedynie modułu Younga dla gruntu podłoża na podstawie sześciu pomiarów ugięcia jest możliwa do uzyskania już na podstawie bardzo małej liczby wzorców trenujących. Już 20 wzorców trenujących wystarcza, aby sieć dobrze aproksymowała ten moduł. Oczywiście, w tym wypadku gwarancją dobrej jakości wytrenowania jest wynik działania wytrenowanej sieci w trybie przywołania. Współczynnik korelacji uzyskany w tym trybie nie jest niższy niż 0,95. Oznacza to, że informacja o sztywności podłoża jest bardzo wyraźnie wpisana w dane pomiarowe. SSN bardzo łatwo odczytuje tę informację. Jest to zgodne z intuicyjnym rozumieniem tego zagadnienia. Oznacza to także, że niewiele pomiarów laboratoryjnych sztywności podłoża gruntowego wystarczy, aby firmy wykonujące testy FWD mogły opracować własną SSN, dobrze przewidującą sztywność podłoża gruntowego pod warstwami nawierzchni. Należy podkreślić, że jeśli do treningu używa się danych doświadczalnych, predykcja nie jest zafałszowana niezgodnościami pomiędzy modelem teoretycznym a realną specyfiką fizyczną testu FWD. Sieć aproksymująca jedynie moduł Younga dla warstwy nawierzchni o największej miąższości, na podstawie sześciu pomiarów ugięcia, uzyskuje bardzo szybko wysoki stopień wytrenowania, jednak niższy niż SSN aproksymująca sztywność podłoża gruntowego. W tym wypadku, zarówno dla zbioru testującego, jak i dla zbioru uczącego, korelacja jest na poziomie 0,95. Aproksymacja jedynie modułu Younga dla warstwy nawierzchni o dominującej miąższości ugięcia jest możliwa do uzyskania już na podstawie stosunkowo niewielkiej liczby wzorców trenujących. Już 50 wzorców trenujących wystarcza, aby sieć dobrze aproksymowała ten moduł. Oczywiście, w tym wypadku gwarancją dobrej jakości wytrenowania jest wynik działania wytrenowanej sieci w trybie przywołania. Współczynnik korelacji uzyskany w tym trybie jest nie niższy niż 0,85. W przykładzie numerycznym zwiększenie liczby wzorców nie poprawiało wyraźnie jakości aproksymacji.
114 116 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Oznacza to, że informacja o sztywności najważniejszej warstwy nawierzchni jest również bardzo wyraźnie wpisana w dane pomiarowe zebrane w trakcie testu FWD. SSN bardzo łatwo odczytuje również tę informację w procesie treningu. Jest to również zgodne z intuicyjnym rozumieniem tego zagadnienia. Oznacza to także, że niewiele pomiarów laboratoryjnych sztywności podłoża gruntowego wystarczy, aby firmy wykonujące testy FWD mogły opracować własną SSN, dobrze przewidującą sztywność głównych warstw nawierzchni. Należy i tu podkreślić, że jeśli do treningu używa się danych doświadczalnych, predykcja nie jest zafałszowana niezgodnościami pomiędzy modelem teoretycznym a realną specyfiką fizyczną testu FWD! Jest to bardzo ważne stwierdzenie, które rozwiązuje wielką ilość problemów teoretycznych. Sieć aproksymująca moduł Younga dla warstwy nawierzchni o najmniejszej miąższości, na podstawie jedynie sześciu pomiarów ugięcia, uzyskuje bardzo niski, niewystarczający dla celów praktycznych stopień wytrenowania. W tym wypadku, zarówno dla zbioru testującego, jak i dla zbioru uczącego, korelacja jest na poziomie 0,8. Dla drugiej z cienkich warstw korelacja ta jest jeszcze gorsza i wynosi w przybliżeniu 0,6. Wynik ten poprawia się przy zastosowaniu dziewięciu standardowych geofonów. Aproksymacja jedynie modułu Younga dla warstwy nawierzchni o najmniejszej miąższości na podstawie jedynie sześciu pomiarów ugięcia jest praktycznie niemożliwa do odczytania również z teoretycznego punktu widzenia. Tej informacji praktycznie nie ma w modelu teoretycznym (różnice zmian grubości obu cienkich warstw są nieznaczne w porównaniu ze zmianami grubości warstw o znacznej miąższości). Z praktycznego punktu widzenia nie jest to wielka wada metody, gdyż warstwy zewnętrzne nawierzchni są łatwo dostępne dla innych metod badania ich parametrów mechanicznych. Ponadto, dla danych zebranych z dziewięciu geofonów dokładność identyfikacji poprawia się znacznie. Sztuczne sieci neuronowe aproksymujące jednocześnie dwa lub więcej modułów osiągały podobny stopień wytrenowania jak sieci przygotowywane do aproksymacji jednego tylko parametru. Jednak w tym przypadku proces treningu jest dłuższy, można zaobserwować tendencję do blokowania postępu treningu w licznych minimach lokalnych. Parametr momentum powinien być bliski jedności, bardzo niska szybkość uczenia powinna być dopuszczalna.
115 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 117 3,50E+07 zgodność cel-odpowiedź, SSN_661_E1 3,50E+07 zgodność cel-odpowiedź, validacja, SSN_100_661_E1 wartość wyjściowa SSN 3,00E+07 2,50E+07 2,00E+07 zbiór uczący zbiór testujący 1,50E+07 x=y 1,00E+07 1,00E+07 1,50E+07 2,00E+07 2,50E+07 3,00E+07 3,50E+07 wartość oczekiwana na wyjściu sieci wartość wyjściowa SSN 3,00E+07 2,50E+07 2,00E+07 1,50E+07 weryfikacja x=y 1,00E+07 1,00E+07 1,50E+07 2,00E+07 2,50E+07 3,00E+07 3,50E+07 wartość oczekiwana na wyjściu sieci Rys Sieć neuronowa o budowie SNN_661 przybliżająca relację odwrotną dla obliczenia modułu Younga najcieńszej warstwy (E1). Przedstawiono odpowiedzi sieci trenowanej przy pomocy 50 wzorców uczących, porównano je z odpowiedziami sieci trenowanej przy pomocy 100 wzorców trenujących (w trybie przywołania ). wartość wyjściowa SSN 3,50E+07 3,00E+07 2,50E+07 2,00E+07 1,50E+07 1,00E+07 5,00E+06 0,00E+00 pierwszy neuron wyjściowy SSN_661 (E1) oczekiwane test uczenie numer wzorca uczącego Rys Sieć neuronowa o budowie SNN_661 przybliżająca relację odwrotną dla obliczenia modułu Younga najcieńszej warstwy (E1). Przedstawiono odpowiedzi sieci trenowanej przy pomocy 50 wzorców uczących, porównane z odpowiedziami oczekiwanymi.
116 118 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień 3,00E+07 zgodność cel-odpowiedź, SSN_662_E3E4 dla E zgodność cel-odpowiedź, SSN_662_E3E4 dla E4 wartość wyjściowa SSN 2,50E+07 2,00E+07 1,50E+07 zbiór testowy zbiór uczący x=y 1,00E+07 1,00E+07 1,50E+07 2,00E+07 2,50E+07 3,00E+07 wartość oczekiwana na wyjściu sieci wartość wyjściowa SSN test dla E podłoża uczenie E podłoża wartość oczekiwana na wyjściu sieci a. b. Rys Sieć neuronowa o budowie SNN_962 przybliżająca relację odwrotną dla obliczenia L D. Na rysunku a. przedstawiono odpowiedzi sieci porównane z wartościami oczekiwanymi dla zbiorów danych uczących i testujących. Na rysunku b. porównano sygnał wyjściowy z oczekiwanym dla tych samych danych. Te obserwacje wspierają tezę, że w procesie uczenia sieci w celu rozwiązania zadania odwrotnego, odzwierciedlają się właściwości tego sformułowania, także te patologiczne, jak słaba zależność od pomierzonych danych czy niejednoznaczność sformułowania Analiza wsteczna wyników testu FWD przy użyciu SSN i wzorów symbolicznych W tym podrozdziale podjęto raz jeszcze ten sam problem, dla którego w podrozdziale poprzednim rozwiązanie wprost otrzymano metodą elementów skończonych. Jak poprzednio, nawierzchnia składa się z dwu warstw cienkich o łącznej grubości około 10 cm, jednej warstwy dominującej o grubości 25 cm oraz podłoża gruntowego o wiele słabszego niż warstwy nawierzchni. Tak jak poprzednio, nie wiąże się tej nawierzchni z jakimś konkretnym rozwiązaniem inżynierskim, jest to przykład ilustrujący wady i zalety analizy wstecznej, związanej z testem FWD, przeprowadzonej przy użyciu sztucznych sieci neuronowych. W tym podrozdziale przeanalizowano przypadek pomiaru ugięć przez 9 geofonów. Zmieniono również sformułowanie wprost. Użyto sformułowania w całości zapożyczonego z pracy [35], klasycznego w teorii sprężystości, zapisanego formułami symbolicznymi.
117 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 119 wartość wyjściowa SSN 3,50E+07 3,00E+07 2,50E+07 2,00E+07 1,50E+07 pierwszy neuron wyjściowy SSN_662 (E3) oczekiwa test uczenie 1,00E numer wzorca uczącego wartość wyjściowa SSN a. drugi neuron wyjściowy SSN_662 (Epodloża) oczekiwane test trening numer wzorca uczącego b. Rys Sieć neuronowa o budowie SNN_662 przybliżająca relację odwrotną dla obliczenia modułu Younga najgrubszej warstwy oraz modułu Younga podłoża gruntowego. Przedstawiono odpowiedzi sieci trenowanej za pomocą 50 wzorców uczących, porównane z odpowiedziami oczekiwanymi. Jest to najgorszy przypadek : mała liczba wzorców i dwa neurony trenowane we wspólnej sieci. Na rysunku a. wartości wyjściowe pierwszego neuronu (E 3 ), na rysunku b. wartości wyjściowe drugiego neuronu (E podłoża ). Uwagi dotyczące związku jakościowego zastosowanej teorii z fizycznymi właściwościami testu pozostają w mocy. Podjęte sformułowanie jest inne niż poprzednie, ale nie jest ani lepsze, ani gorsze jakościowo. Wspiera ono tezę, że proponowana metoda analizy wstecznej jest bardzo uniwersalna. Należy zauważyć,
118 120 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień że w pracy [35] użyto z powodzeniem zupełnie innego, klasycznego algorytmu analizy odwrotnej, znanego jako Metoda identyfikacji SF-PL. Nawiązując do nomenklatury wprowadzonej w rozdziale drugim, model teoretyczny (model M) zdefiniowany jest układem równań różniczkowych cząstkowych zagadnienia statyki we współrzędnych cylindrycznych dla przypadku osiowo symetrycznego. Są to następujące równania: σr σrz σr σ θ σrz σz σrz + + = 0, + + = 0. (4.16) r z r r z r Współrzędna promieniowa oznaczona jest przez r, z jest globalną współrzędną pionową. Klasycznie oznaczono tu składowe tensora naprężenia Cauchy ego symbolem σ. Powyższe równania równowagi uzupełnione są równaniami konstytutywnymi przyjętymi w klasycznej, bardzo prostej formie, właściwej dla liniowej sprężystości: ν 0 r 1 2ν σ r 1 ν 0 u σ θ r 1 2ν = 2G θ (4.17) σ z ν 0 w σ rz 1 2 ν z z 2 r Skladowe pionowa i promieniowa wektora przemieszczenia to odpowiednio w i u. G i = E i /2(1 + ν i ) jest modułem Kirchoffa i-tej warstwy, zaś θ to dylatancja, którą dla osiowej symetrii w układzie cylindrycznym zapisuje się wzorem: 1 w θ = ( ru) + r r z (4.18) Łatwo określić problem wprost związany z modelem M: wi = ( 1 ν ) Φ4 Φ 2 4 i = (4.19) G 2 z ( x i,z4 = 0) Współrzędna z j jest lokalną osią z w warstwie nr j, z początkiem w stropie warstwy, x jest współrzędną promieniową (powyżej jest to r). W powyższym wzorze Φ jest potencjałem spełniającym równanie biharmoniczne, przyjętym za [72] w postaci (podobne rozwiązania można znaleźć w klasycznych podręcznikach teorii sprężystości, nieco inne podejście proponowane jest w opracowaniu [66]):
119 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 121 z ( ) ( x) λ 0 ( ) ( ) z j λ J λ j x,z G Aj Bj zj e ( Cj Dj zj) e d 2 0 λ Φ = + λ + + λ λ (4.20) J 0 (λr) to funkcja Bessela pierwszego rodzaju, rzędu zero, λ jest parametrem całkowania. Zbiór {A i, B i, C i, D i,} to stałe całkowania dla warstwy nr i. Oczywiście dla warstwy nr 1 należy przyjąć stałe całkowania C 1 oraz D 1 równe zeru, z uwagi na zachowanie się rozwiązania w nieskończoności. Czternaście stałych całkowania należy wyznaczyć z warunków brzegowych i warunków zszycia. Przy założeniu całkowitego kontaktu, porównaniu podlegają dwie składowe tensora naprężenia i dwie składowe wektora przemieszczenia, obliczone po przeciwnych stronach powierzchni kontaktu. Jest to wystarczająca ilość warunków potrzebnych dla wyznaczenia stałych. Oczywiście, warunek naprężeniowy na brzegu wymaga specjalnej reprezentacji obciążenia impulsowego, którą przyjęto za [35]. Szczegóły obliczeń, a nawet ich wyniki nie są możliwe do przedstawienia, nie jest to również celowe. Całość obliczeń wykonano używając programu obliczeń symbolicznych Maple. Zadanie praktyczne jest sformułowane następująco: znaleźć ciąg { E 4i,E 3i,E 2i,E 1} czterech wartości modułów Younga dla trzech warstw zaznaczonych na rysunku 49, czwarta wartość to moduł Younga podłoża gruntowego. Zauważmy, że zmieniono tu konwencję numeracji warstw, zaczynając od podłoża gruntowego i kończąc na warstwie czwartej, odpowiadającej zarejestrowanemu ciągowi odczytów z geofonów {w1,, w9}. W celu przygotowania wzorców uczących dla wytrenowania SSN, obliczenia numeryczne wartości ciągów danych wejściowych dla sieci { w 1,,w6} j były powtarzane w ramach programu obliczeń symbolicznych Maple dla wartości tr tr tr tr próbnych parametrów zagadnienia { E4, E3, E2, E1 } j w poczwórnej pętli, w której wartości modułów Younga przyjmowały po 5 wartości pomiędzy MPa a MPa. Moduł Younga dla podłoża zmieniany był w granicach od kpa do kpa. Jak poprzednio, uzyskane fragmenty czaszy ugięcia, w kształcie których zapisana jest cała istotna informacja o badanym obszarze, są jakościowo bardzo podobne. Sztuczna sieć neuronowa w procesie treningu odkrywa i interpretuje te dane. Rezultat treningu SSN, dla j-tej obserwacji ciągu ugięć deflektometru, można w tym wypadku zapisać: { E1, E2, E3, E } SSN@ { w1, w2, w3, w4, w5, w6, w7, w8, (4.21) j j j j j
120 122 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Wytrenowano sieci o identycznej architekturze jak w poprzednim podrozdziale. Różnią się one jedynie liczbą neuronów w pierwszej warstwie (tj. wejściowej). Udało się, w każdym przypadku, uzyskać niewielką liczbę neuronów w warstwie ukrytej, nie większą niż 6 neuronów, dla dominującej warstwy i podłoża gruntowego nawet jedynie 3 neurony. Doświadczenie numeryczne pokazało, że podczas procesu uczenia każda z trenowanych sieci zachowuje się podobnie jak analogiczna sieć podrozdziału 1.6. Jednocześnie jakość aproksymacji odwzorowania odwrotnego przez sieć neuronową, wyrażona między innymi współczynnikiem korelacji, jest w każdym przypadku dużo lepsza. W ten sposób wykazano, że metoda aproksymacji relacji odwrotnej działa w zgodzie z logiką sformułowania matematycznego. Łatwo poprawia się jakość przybliżenia wraz z nowymi informacjami (ugięcia z trzech dodatkowych geofonów) wprowadzonymi do analizy. Najciekawsze obserwacje dotyczące rezultatów treningu sieci zebrano w tabeli 2. Tabela 4.2 Sieć_moduł Błąd RMS Korelacja Liczba wzorców Zbiór uczący Zbiór testowy Zbiór walidujący Zbiór uczący Zbiór testowy Zbiór walidujący 661_E1, 50 0,0780 0,0801 0,0910 0,9473 0,9389 0, _E1, 50 0,0580 0,0501 0,0610 0,9871 0,9761 0, _E1, 100 0,0820 0,0880 0,0966 0,9971 0,9811 0, _E1, 100 0,0617 0,0536 0,0644 0,9971 0,9811 0, _E3, 50 0,0069 0,0791 0,0820 0,9998 0,9710 0, _E3, 50: 0,0078 0,0801 0,0910 0,9971 0,9811 0, _E3, 100 0,0086 0,0644 0,0818 0,9997 0,9581 0, _E3, 100 0,0082 0,0856 0,0958 0,9498 0,9721 0, _E4, 50 0,0010 0,0012 0,0011 0,9996 0,9988 0, _E4, 50 0,0009 0,0009 0,0008 0,9999 0,9998 0, _E3E4, 50 0,0010 0,0012 0,0012 0,9712 0,9563 0, _E3E4, 50 0,0010 0,0010 0,0009 0,9511 0,9735 0,9625 W tabeli 4.2 warstwa nr 1 jest pierwszą warstwą od góry. Warstwa nr 3 jest warstwą o największej miąższości, warstwa nr 4 to półprzestrzeń sprężysta
121 ROZDZIAŁ 4. Zagadnienie odwrotne związane z interpretacją impulsowych testów 123 podłoża gruntowego. Wielkości błędów i korelacji podane w tabeli 4.2 zależą od wylosowanych zbiorów trenujących i od procesu uczenia. Rząd wielkości jest jednak powtarzalny we wszystkich przypadkach. Należy podkreślić, ze liczba wag i biasów sieci, zwłaszcza sieci o dziewięciu neuronach w warstwie wejściowej, jest porównywalna z liczbą wzorców. Dlatego trening przerywano natychmiast po zaobserwowaniu spadku korelacji i wzrostu błędu dla zbioru testującego, który nigdy nie był mniejszy niż 50 wzorców Wnioski praktyczne Zastosowanie SSN do rozwiązania zagadnienia odwrotnego związanego z testem FED okazało się zaskakująco łatwe. Zaskoczenie jest tu związane z faktem, że dane mogły się okazać zbyt mało liczne, aby móc określić moduły warstw oraz z tym, że można się było spodziewać problemów z jednoznacznością tych danych. Jak to wynika z monografii [35], dla czterech warstw można uzyskać rozwiązanie, jednak ogromnym nakładem pracy numerycznej ( iteracji, przy kilkudziesięciu dla dwóch warstw). Przypadek czterech warstw jest tu istotny, gdyż jak się wydaje, zbiór danych doświadczalnych w postaci dziewięciu ugięć jest zbyt ubogi, aby zadanie odwrotne mogło być dobrze postawione. W ramach tej książki nie ma miejsca na analizę matematyczną tego problemu. Powyższy przykład został tak wybrany, że ilustruje dobrze zaletę metody aproksymacji relacji odwrotnej. Polega ona na tym, że metoda ta pozwala odczytać każdą informację zawartą w danych doświadczalnych w sposób niezależny. Na przykład, dla zadania z czterema warstwami, dla którego identyfikacja powinna prowadzić do problemów numerycznych, informacja o zachowaniu się nawierzchni o dwóch warstwach dominujących jest łatwa do odczytania. Trudności w ocenie sztywności trzeciej i czwartej warstwy nie zakłócają prawidłowości i łatwości oceny sztywności podłoża i warstwy dominującej. Proces identyfikacji jest w sposób naturalny rozprzężony (inaczej niż w wypadku procedur rekurencyjnych i procedur związanych z rozwiązywaniem układów równań). Jest to ogromna zaleta proponowanej metody, celem tego rozdziału była, między innymi, numeryczna ilustracja tej właściwości metody aproksymacji relacji odwrotnej.
122 124 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Chcę również podkreślić, że dla dwu warstw metoda aproksymacji relacji odwrotnej działa w sposób niezwykle łatwy, relacja odwrotna dla każdego modułu Younga jest przybliżana sieciami o architekturze 931 ze współczynnikiem korelacji ponad 0,98. Okazuje się zatem, że poważne problemy matematyczne nie znikają w proponowanym podejściu, ale manifestują swoją obecność w wyraźny i mniej destrukcyjny sposób niż w innych metodach identyfikacji. Przede wszystkim widoczne są w procesie uczenia. Wykonane wirtualne testy numeryczne wykazały, że SSN może być z powodzeniem trenowana przy użyciu niewielkiej liczby danych (już około 30 do 50 przykładów dla dwóch i trzech warstw nawierzchni, odpowiednio, może wystarczyć). Wobec tego metoda ta wydaje się być stosowalna w praktyce, ponieważ taka mała ilość pomiarów laboratoryjnych jest możliwa do wykonania. Gdyby wyniki wszelkich badań praktycznych były publikowane, powstała w ten sposób baza danych byłaby łatwa do wykorzystania właśnie przez zastosowanie sztucznych sieci neuronowych doskonalonych w trakcie ich używania. Metody miękkie mają tę zaletę, że mogą być doskonalone wraz z pogłębiającym się doświadczeniem zawodowym ich użytkownika. Należy też zauważyć, że SSN jest produktem takim, jak wzór lub kod programu opracowany dla relacji odwrotnej, która jest użyteczna! Nie jest to jedynie bieżący algorytm obliczeniowy! Może być więc własnością firmy wykonującej testy DWG, która ją uzyskała w ramach własnej praktyki doświadczalnej. Ten sam algorytm budowania relacji odwrotnej jest wspólny dla wielu różnych problemów. Pomimo, że opis matematyczny i fizyczny są nieraz jakościowo różne, taki sam, automatyczny system uczenia operatora neuropodobnego SSN działa za każdym razem.
123 Rozdział 5. Rozprzestrzenianie się zanieczyszczeń w ośrodku gruntowym: identyfikacja parametrów procesu Jednym z najgroźniejszych zjawisk związanych z funkcjonowaniem składowisk odpadów są zanieczyszczone wody odciekowe migrujące poza obszar składowiska, powodując degradację wód podziemnych. Monitoring wód podziemnych stanowi źródło informacji niezbędnej dla oceny funkcjonowania składowiska. W tym rozdziale wykazano, że na podstawie analizy danych z badania wód podziemnych można określić nie tylko stopień ich zanieczyszczenia, ale także ustalić źródło powstających zanieczyszczeń. Takie wyniki mogą zarówno wykluczyć składowisko, jako obiekt będący bezpośrednim źródłem zanieczyszczeń, jak i wskazać lokalizację wycieku usytuowanego w jego obrębie, np. miejsce uszkodzenia syntetycznej izolacji składowiska. W pierwszej części tego rozdziału przedstawiono zagadnienie odwrotne, sformułowane w celu dokonania identyfikacji źródeł zanieczyszczeń wód gruntowych na podstawie pomierzonych w kilku punktach pomiarowych stężeń wybranych zanieczyszczeń przy wykorzystaniu, jako narzędzia obliczeniowego, sztucznej sieci neuronowej. Składowisko odpadów jest obiektem, który w trakcie swojego funkcjonowania podlega ciągłej kontroli. Aby wykluczyć wszelkie nieprawidłowości, mogące ujawnić się w czasie jego eksploatacji, zostały określone formalnie ścisłe zasady prowadzonego monitoringu, który obejmuje zwykle badania wód podziemnych, odciekowych i gazu składowiskowego. Ze względu na ciągłe przemiany fizykochemiczne, zachodzące w obszarze składowiska odpadów, budowle te są nazywane często reaktorami biochemicznymi. Unieszkodliwiane odpady cechuje różnorodny skład morfologiczny i chemiczny, co wiąże się z biochemicznymi przemianami masy odpadowej. Dochodzi do uwalniania się wielu niebezpiecznych chemicznie substancji. Zastosowane na składowisku izolacje syntetyczne chronią przed
124 126 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień przedostawaniem się tych substancji do wód gruntowych. Zostają one zebrane systemem drenażu wód odciekowych, zlokalizowanym powyżej izolacji syntetycznej i odpompowywane. Jednakże w wyniku uszkodzenia zarówno drenażu, jak i izolacji syntetycznej, często dochodzi do infiltracji wód odciekowych do środowiska naturalnego, w szczególności do wód podziemnych. Ilość danej substancji w jednostce objętości wody ulega zmianom w czasie i przestrzeni, zarówno w wyniku procesu transportu, jak i w wyniku innych zachodzących procesów takich jak, między innymi, biodegradacja, sorpcja i desorpcja. Przebieg tych procesów zależy głównie od rodzaju gruntu, zawartości substancji organicznych, składu granulometrycznego, konsystencji, wodoprzepuszczalności i innych parametrów. W warstwie wodonośnej odbywa się proces rozcieńczenia i mieszania wód skażonych z wodami podziemnymi. Prędkość przepływu tych wód zależy od wodoprzepuszczalności warstwy wodonośnej, od jej geometrii, od naporu hydraulicznego, który jest funkcją (między innymi) ilości opadów. Podwyższone lub zmieniające się w czasie wskaźniki zanieczyszczeń, rejestrowane podczas monitoringu wód podziemnych, wskazywać mogą na wyciek niebezpiecznej substancji do środowiska naturalnego. Należy przyjąć, iż tylko pewna część zanieczyszczenia przesączy się do wód gruntowych. Pozostała część zostanie zaabsorbowana w obsypce piaszczystej powyżej uszczelnienia lub w gruncie w strefie aeracji (po przeniknięciu przez geomembranę uszczelniającą składowiska w wyniku jej uszkodzenia). Część objętości wycieku dotrze do wód podziemnych, co uwidoczni się wysokim stężeniem substancji zanieczyszczających, wykrytej w próbkach wody pobranej z piezometrów kontrolnych. Przedstawione w tym rozdziale rozwiązania mają, lub mogą mieć, wiele ważnych zastosowań gospodarczych związanych z wykrywaniem i charakterystyką źródeł zanieczyszczeń oraz z opisem właściwości ośrodka, w którym mogą się one rozchodzić. Dotyczy to przede wszystkim opisu funkcjonowania i monitoringu środowiska sąsiadującego ze składowiskami odpadów, zagrożonego odciekami lub emisją gazów. Ocena stanu technicznego składowiska odpadów wiąże się z prognozą skuteczności funkcji ochronnej tej instalacji w stosunku do poszczególnych elementów środowiska naturalnego, w kontekście sytuacji szczegółowej, scharakteryzowanej wieloma parametrami opisującymi stan techniczny i zawartość składowiska. Ważnym elementem oceny bezpieczeństwa środowiska naturalnego są wnioski z prowadzonego monitoringu. Analiza rozwiązań technologicznych, w tym ocena spełnienia wymagań stawianych lokalizacji składowisk, jest
125 ROZDZIAŁ 5. Rozprzestrzenianie się zanieczyszczeń w ośrodku gruntowym: identyfikacja parametrów procesu 127 problemem rozwiązywanym przez eksperta na podstawie istniejących przepisów szczegółowych i w kontekście postulatywnego opisu najlepszych dostępnych technik składowania (Best Available Techniques BAT). Przedstawione metody, bazujące na rozwiązaniu zagadnienia odwrotnego, powinny być zgodne z Ramową Dyrektywą Wodną Unii Europejskiej 2000/60/WE. Zgodnie z dyrektywą, państwa członkowskie są zobowiązane do ustanowienia i prowadzenia stałego monitoringu stanu wód. Zagadnienia te znajdują odzwierciedlenie w następujących aktach prawnych: Ustawa z dnia 18 lipca 2001 r. Prawo wodne. (Dz. U. Nr 115, poz z późn. zm.) art. 38a ust. 1, art. 155a, art.155b. Rozporządzenie Ministra Środowiska z dnia 24 marca 2003 r. w sprawie szczegółowych wymagań dotyczących lokalizacji, budowy, ekspoatacji i zamknięcia, jakim powinny odpowiadać poszczególne typy składowisk odpadów (Dz. U. Nr 61, poz. 549). Rozporządzenie Ministra Środowiska z dnia 9 grudnia 2002 r. w sprawie zakresu, czasu, sposobów oraz warunków prowadzenia monitoringu składowisk odpadów (Dz. U. Nr 220, poz. 1858). Rozporządzenie Ministra Środowiska z dnia 11 lutego 2004 r. w sprawie klasyfikacji dla prezentowania stanu wód powierzchniowych i podziemnych, sposobu prowadzenia monitoringu oraz sposobu interpretacji wyników i prezentacji wód (Dz. U. Nr 32, poz. 284). Wobec dużej ilości parametrów opisujących stan środowiska w sąsiedztwie składowiska odpadów, analiza tych danych jest bardzo trudna. Wyczerpujący opis tych problemów oraz odwołania do literatury z tej dziedziny znaleźć można w podręczniku [74]. Przedmiotem tego rozdziału jest skonstruowanie obiektywnego narzędzia numerycznego, wspomagającego taką analizę. W zarządzaniu elementami infrastruktury, wchodzącymi w zakres geotechniki środowiska, używa się, jak dotąd, w niewielkim stopniu miękkich narzędzi analizy numerycznej, takich jak sieci neuronowe. Stosowane są dwa podstawowe typy monitoringu: monitoring oparty o sieć piezometrów oraz monitoring bezpośredni, instalowany w warstwach konstrukcyjnych składowiska. Oczywiście, metoda monitoringu oparta na czujnikach odcieku nie wymaga zastosowania procedury identyfikacji źródła, ani jego intensywności. Jednak jest ona, w swojej podstawowej formie, uboższa informacyjnie (brak informacji o naturze wycieku) oraz droższa. Nie można jej również zastosować do istniejących składowisk, często wyłączonych z eksploatacji.
126 128 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień a. b. Rys. 5.1 a. Obszary składowisk są źródłem zagrożenia dla środowiska nawet wtedy, gdy stosowane są sztuczne wykładziny nieprzepuszczalne z geomembran, b. Problem identyfikacji położenia źródła zanieczyszczeń, które rozchodzi się w dowolnym obszarze, nie tylko w ośrodku porowatym lecz także w powietrzu jest bardzo ważny i może być przedmiotem analizy narzędziami teoretycznymi przedstawionymi w tym rozdziale. W bieżącym rozdziale przedstawiono również przykłady zastosowania sieci neuronowych i formalizmu zagadnienia odwrotnego do oceny właściwości gruntu w sąsiedztwie składowiska, takich jak zdolności filtracyjne, dyspersyjne oraz charakteryzujące adsorpcję zanieczyszczeń. Przedstawione zostaną przykłady ilustrujące zastosowanie sztucznych sieci neuronowych w rozwiązaniu problemów odwrotnych, związanych z zagadnieniem rozprzestrzeniania się zanieczyszczeń. Dla zagadnienia ustalonego konwekcji, zakładając znajomość wartości pól stężeń roztworu wodnego substancji zanieczyszczającej w kilku punktach pomiarowych
127 ROZDZIAŁ 5. Rozprzestrzenianie się zanieczyszczeń w ośrodku gruntowym: identyfikacja parametrów procesu 129 (piezometrach) i wartości naporu hydraulicznego w tych samych piezometrach, położenie źródła i jego intensywność będą identyfikowane dzięki zastosowaniu sztucznych sieci neuronowych do aproksymacji relacji odwrotnej, zgodnie z metodą przedstawioną w poprzednich rozdziałach. Obszar składowania Podsypka i instalacja drenująca Sztuczna warstwa uszczelniająca Siatka czujników monitoringu bezpośredniego (czerwona linia) Sztuczna bariera geologiczna (k<10-9 m/s) Grunt rodzimy o małej wodoprzepuszczalności (k<10-4 S m/s) Rys Schemat składowiska z warstwą monitorującą położenie źródła wycieku, który pojawia się w obszarze warstw izolujących i w gruncie poniżej składowiska. Sposób ten jest niemożliwy do zastosowania w przypadku istniejącego już składowiska, często zamkniętego, które jest najbardziej zgrożone wyciekiem. Ten sam sposób zostanie zastosowany do identyfikacji wektora dyfuzji. Formułując zagadnienie propagacji zanieczyszczeń w ośrodku gruntowym tak, aby mogło mieć zastosowanie praktyczne, przyjęto że danymi wyjściowymi dla tego zagadnienia będą odczyty z urządzeń monitorujących obszary potencjalnego zagrożenia skażeniem.
128 130 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Rys Obraz numeryczny położenia źródła wycieku, który pojawia się w obszarze warstw izolujących i w gruncie poniżej składowiska. Jest to obraz jakościowo podobny do wykresów z rysunku 5.4. Danymi pomiarowymi będą tu, wobec tego, dane odczytywane z piezometrów rozmieszczonych w obszarze możliwej propagacji zanieczyszczeń. Dane te to pomierzone w kilku punktach obserwacyjnych poziomy wody i stężenia substancji zanieczyszczającej. Zagadnienie początkowo-brzegowe, w którym dane są intensywności i rozkład źródeł zanieczyszczeń, zaś szukany jest rozwój w czasie pola stężenia substancji zanieczyszczającej, to zagadnienie wprost. Tak jak to opisano w poprzednich rozdziałach, identyfikacja parametrów procesu, gdy dane są wartości stężenia substancji zanieczyszczającej w kilku punktach badanego obszaru, to zagadnienie odwrotne. Wielkości szukane w zagadnieniu odwrotnym to: położenie i intensywność źródła wycieku, prędkości opisujące zmiany pola stężeń oraz efektywne właściwości filtracyjne i dyfuzyjne ośrodka, w którym następuje propagacja zanieczyszczeń Równanie dyspersji, sformułowanie problemu Zagadnienie brzegowe opisane równaniem (5.1) i warunkami brzegowymi (5.2) będzie przedmiotem rozważań w tym rozdziale. c c c Q+ Dij + vi = x i x j xi t v i = k ij h x j (5.1)
129 ROZDZIAŁ 5. Rozprzestrzenianie się zanieczyszczeń w ośrodku gruntowym: identyfikacja parametrów procesu 131 x (, ) ; ( x ) = x y Ω c = c s s s s s ( ) x Ω: x x c x 0 s (5.2) c(x) oznacza nieznane pole stężenia (pole koncentracji) substancji zwanej umownie substancją zanieczyszczającą, k jest macierzą współczynników tensora wodoprzepuszczalności Darcy, D oznacza macierz współczynników tensora dyfuzji ośrodka, Q jest wydajnością źródła, równą c s, zaś x s to wektor położenia źródła. Równania (5.1) i (5.2), zgodnie z powszechną ich interpretacją, opisują sytuację, w której substancja zanieczyszczająca rozprzestrzenia się w ośrodku nieskończonym dzięki zjawisku dyfuzji w cieczy wypełniającej pory. Na proces ten nakłada się zjawisko unoszenia cząsteczek substancji zanieczyszczającej przez przepływającą w ośrodku porowatym ciecz (adwekcja). Cieczą jest tu woda gruntowa wypełniająca przestrzeń pomiędzy ziarnami szkieletu gruntu. Przepływ wody jest rządzony prawem Darcy, nie rozpatrujemy tu innych związków konstytutywnych jak w [6], [7]. Nie dyskutujemy również w tej pracy natury zanieczyszczenia (mieszanina cieczy, zawiesina cząstek substancji zanieczyszczającej...). Naszym zadaniem jest raczej przedstawienie rozwiązania zadania odwrotnego, związanego z równaniem (5.1). W przykładach numerycznych przyjmujemy, że przepływ i pole koncentracji rozwiązania równania (5.1) są ustalone. Zagadnienie to jest opisane równaniem (5.1), w którym pochodną czasową koncentracji, po jego prawej stronie, przyjęto równą zeru. Założono, że w nieskończoności stężenie dąży asymptotycznie do zera, aby możliwy był stan ustalony. Założono, że prędkość unoszenia v jest stała. Stan taki może być interpretowany jako sytuacja po czasie t wystarczająco długim, liczonym od momentu początkowego, w którym rozpoczyna się aktywność źródła Q. Zakładamy, że pole prędkości wynika z różnic naporów hydraulicznych w ośrodku (równanie (5.1 2 )). Na rysunku 5.4 przedstawiono jakościowe przykłady rozwiązań uzyskanych dla pola koncentracji, dla niewielkiej liczby Pecleta, dla pola prędkości równego zeru, jednorodnego oraz dla przypadku, gdy ośrodek jest niejednorodny (założono skok wartości współczynnika Darcy). Stany ustalone w przepływach zdefiniowanych równaniem (5.1) dyskutowane są, między innymi, w pracach [130] i [164], [170], [208].
130 132 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień a. b ,9-1 0,8-0,9 0,7-0,8 0,6-0,7 0,5-0,6 0,4-0,5 0,3-0,4 0,2-0,3 0,1-0,2 0-0,1 c. d. Rys Jakościowe przykłady rozwiązań równania (5.1). Są to pola koncentracji; a. Rozwiązanie dla pola prędkości równego zeru; b. Rozwiązanie dla jednorodnego pola prędkości oraz d. Rozwiązanie dla przypadku gdy ośrodek jest niejednorodny. Skok wspólczynnika Darcy dla przypadku d. pokazano na rysunku c. Założony skok współczynnika Darcy pokazano na rysunku 5.4.c. Rozwiązania wprost dla pola koncentracji można uzyskać dowolnym programem MES lub MRS. W przykładzie posłużono się programem Metody Różnic Skończonych, opracowanym celowo dla generacji danych potrzebnych do rozwiązania rozważnego tu problemu odwrotnego. Wykresy stężeń, przedstawione na rysunku 5.4, uzyskano tym właśnie programem. Dane potrzebne do rozwiązania problemu odwrotnego to wartości koncentracji c w miejscach, gdzie zlokalizowano piezometry. Schemat tej sytuacji przedstawia rysunek 5.5. Napory hydrauliczne są mierzone w tych samych miejscach co koncentracje.
131 ROZDZIAŁ 5. Rozprzestrzenianie się zanieczyszczeń w ośrodku gruntowym: identyfikacja parametrów procesu 133 Rysunek 5.5. Schemat przedstawia obszar składowiska z szukanym źródłem wycieku. Pokazano orientacyjne położenia piezometrów otaczających składowisko. Celem tego rozdziału jest przedstawienie możliwości zastosowania sztucznych sieci neuronowych oraz metody rozwiniętej w poprzednich rozdziałach do rozwiązania zagadnienia odwrotnego związanego z problemem dyspersji zanieczyszczeń w ośrodku porowatym.... c PN c P1 c Pi h P1 h Pi... h PN Dwie warstwy ukryte liczące po M oraz N neuronów M=7; N=5; x y c Współrzędne źródła x,y Intensyvność źródła Rys Schemat sieci neuronowej do identyfikacji położenia źródła wycieku i jego intensywności. Na wejściu sieci koncentracje c oraz napory hydrauliczne h, obserwowane w piezometrach. Na wyjściu sieci parametry źródła. Liczność warstw ukrytych największa spośród wszystkich rozpatrywanych przykładów numerycznych.
132 134 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Ponieważ w poprzednich rozdziałach metoda aproksymacji relacji odwrotnej została bardzo szczegółowo przedstawiona, w tym rozdziale przedstawiono jedynie opis ogólny, schematy na rysunkach 5.6 i 5.7 oraz wyniki przykładów numerycznych. Jak poprzednio, sztuczna sieć neuronowa będzie użyta do transformacji sygnału wejściowego (ciąg pomierzonych wielkości obserwowalnych) w sygnał wyjściowy (dane wartości parametrów materiałowych i parametrów żródła), dla których pomierzono wielkości obserwowalne (koncentracje i napory hydrauliczne). Sieć taka będzie wytrenowana na zbiorze próbnych rozwiązań wprost zagadnienia (5.1), (5.2). Jeśli istnieje jednoznaczna zależność wartości parametrów materiałowych i parametrów źródła od ciągu pomierzonych wielkości obserwowalnych, to w przybliżeniu, z zadaną tolerancją, wytrenowana na przykładach SSN będzie działała jako przybliżenie tej zależności. Istnienie i jednoznaczność rozwiazania jest jedną z głównych kwestii związanych z problemem odwrotnym. Współczynniki Darcy k; diffuzyjności wektor D; dane pole prędkości wody v or pole naporu hydraulicznego h(x) Problem wprost : rozwiązanie pb. (1) (MES lub MRS) dla wielu próbnych k, D, h Pole stężenia c(x); w szczególności: wartości pola w N wybranych punktach obserwacyjnych c(x pi ) Wyjście sieci SSN: W trybie treningu: k, D W trybie odpowiedzi: szukane wartości k, D odpowiadające wejściowym danym pomiarowym Wytrenowana SSN, która przybliża działanie relacji odwrotnej Wejście SSN: W trybie treningu c(x pi ) oraz h(x pi ) dla rozwiązań próbnych W trybie odpowiedzi realne, obserwowane c(x pi ) oraz h(x pi ) Rys Schemat algorytmu zastosowania SSN do rozwiązania problemu odwrotnego. To, czy zagadnienie odwrotne jest sformułowane poprawnie, zależy od wyboru miejsca i od liczby punktów, w których są mierzone wartości obserwowalnych wielkości. W kontekście tego problemu należy jedynie stwierdzić, że
133 ROZDZIAŁ 5. Rozprzestrzenianie się zanieczyszczeń w ośrodku gruntowym: identyfikacja parametrów procesu 135 stosowanie SSN jest korzystne, ponieważ podczas procesu uczenia sieci można, drogą interpretacji jego przebiegu, wnioskować o prawidłowości wyboru danych wyjściowych. Sieci zastosowane w poniższych przykładach to sieci trójwarstwowe lub sieci o dwóch warstwach ukrytych o niewielkiej liczbie neuronów w warstwach ukrytych. We wszystkich sieciach użytych do aproksymowania relacji odwrotnej, w poniższych przykładach, zastosowano algorytm uczenia oparty na wstecznej propagacji błędu, równoważny minimalizacji błędu sieci metodą największego spadku. Współczynnik prędkości uczenia dobierany był automatycznie Przykłady identyfikacji parametrów wpływających na rozprzestrzenianie się zanieczyszczeń w ośrodku porowatym na podstawie monitoringu Dla zagadnienia ustalonego dyspersji, zakładając znajomość wartości pól koncentracji w kilku punktach pomiarowych (piezometrach) i wartości naporu hydraulicznego w tych samych piezometrach, identyfikowane są położenie źródła koncentracji i jego intensywność W tym samym zagadnieniu opracowany algorytm stosowany jest do identyfikacji wodoprzepuszczalności (współczynnika filtracji) i dyfuzyjności ośrodka (tensora dyfuzyjności). Aby zilustrować wiarygodności procedury, przeanalizowano to samo zagadnienie dla przypadku losowo zaburzonych danych wyjściowych. Przedstawiono zastosowanie sztucznej sieci neuronowej do zagadnienia odwrotnego w przypadku zmiennego i niejednorodnego pola prędkości przepływu. W tym przypadku przeprowadzono identyfikację współrzędnych źródła, identyfikację intensywności źródła, identyfikację wektora prędkości, identyfikację stałej filtracji, identyfikację tensora dyfuzyjności. Jak poprzednio, przeanalizowano wpływ zaburzeń losowych pomiaru na wynik identyfikacji oraz przedstawiono wnioski teoretyczne i praktyczne wynikające z tych doświadczeń numerycznych. W poniższych przykładach, zostały wykorzystane tylko wirtualne obserwacje. Wirtualne obserwacje to wartości stężeń i naporów hydraulicznych odczytane z numerycznych rozwiązań problemu rozprzestrzeniania się rozpuszczonej substancji w ośrodku porowatym w wybranych punktach ośrodka (w punktach planowanego rozmieszczenia czujników). Sztuczne sieci neuronowe trenowane są przy użyciu danych uzyskanych z kilkudziesięciu, lub nawet kilkuset, bezpośrednich rozwiązań zagadnienia wprost.
134 136 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Przykładowe wyniki procedury identyfikacji We wszystkich przykładach zaprezentowanych w tym rozdziale, używamy następujących próbnych danych liczbowych w procesie przygotowania danych do treningu sieci: pozycja źródła zmienia się w granicach od 1 do 15 m w stosunku do ustalonej pozycji piezometrów. Bezwymiarowe (znormalizowane zmienne) wydajności źródła są zawarte między 0 i 1. Dla stałych wartości prędkości przepływu wygenerowano 500 przykładów uczących. Zmienne prędkości przepływu konwekcyjnego strumienia są zmieniane w przedziale od 0 do 1. We wszystkich przypadkach, na podstawie pomiarów naporu hydraulicznego i koncentracji, wygenerowano 2000 wzorców danych wejściowych. Około 30% zbioru wejściowego jest używane jedynie jako zbiór testowy. We wszystkich przykładach przedstawionych w niniejszej pracy, jeśli jest identyfikowany więcej niż jeden parametr, to wszystkie parametry są identyfikowane jedną wspólną siecią. Trening jest w takim przypadku nieco trudniejszy niż w przypadku oddzielnych sieci uczonych dla każdej identyfikowanej zmiennej. Traktujemy to jako analizę najgorszego przypadku w procesie treningu sieci. Następujące rezultaty rozwiązania zadania odwrotnego są przedstawione na wykresach jakości wytrenowania sieci neuronowej: przy zerowym polu prędkości wykonano identyfikację położenia źródła (wyznaczano x s oraz y s wspołrzędne wycieku), przy zerowym polu prędkości wykonano identyfikację intensywności źródła (wyznaczano c s ), przy stałym, nieznanym polu prędkości wykonano identyfikację położenia źródła (wyznaczano x s oraz y s wspołrzędne wycieku); przy stałym, nieznanym polu prędkości wykonano identyfikację intensywności źródła (wyznaczano c s ), zidentyfikowano wartość współczynnika Darcy dla przypadku ośrodka jednorodnego i izotropowego, zidentyfikowano wartość dyfuzyjności ośrodka dla przypadku ośrodka jednorodnego i anizotropowego. Z punktu widzenia praktyki inżynierskiej, problemy identyfikacji stałej filtracji i wektora dyfuzyjności są bardzo ważne. Należy zauważyć, że dzięki temu, że wartości mierzone są odczytywane dla dowolnie rozstawionych piezometrów obliczane wartości są wartościami miarodajnymi dla całego obszaru.
135 ROZDZIAŁ 5. Rozprzestrzenianie się zanieczyszczeń w ośrodku gruntowym: identyfikacja parametrów procesu 137 Łatwo stwierdzić, że wyniki identyfikacji zależą od prawidłowego wyboru liczby i rozmieszczenia piezometrów. Dla dwóch piezometrów, wyniki treningu wykazują korelację z wartościami oczekiwanymi na poziomie 0,75. Dla trzech i więcej piezometrów, uzyskujemy natychmiastową poprawę jakości wytrenowania sieci neuronowej aproksymującej relację odwrotną. Dla sieci oznaczonej skrótowo symbolem SSN_333, co oznacza: 3 neurony w warstwie wejściowej, 3 neurony w warstwie ukrytej i 3 neurony w warstwie wyjściowej, dla prostego przykładu bez prędkości unoszenia, uzyskano następujące wyniki: błąd RMS dla zbioru uczącego: 0,00134, korelacja dla zbioru uczącego: 0,9999, błąd RMS dla zbioru testującego: 0,00233, korelacja dla zbioru testującego: 0,9998. W dalszych przykładach przyjmowano zawsze pięć piezometrów, biorąc pod uwagę fakt, że prędkość unoszenia jest nieznana. Prędkość unoszenia (prędkość przepływu wód gruntowych) zależy od różnicy naporów hydraulicznych. Odczyty wartości tych naporów w piezometrach pozwalają na uzyskanie informacji o wartościach tej prędkości. Poniżej przedstawiono wyniki ilustrujące jakość przybliżenia relacji odwrotnej za pomocą sztucznej sieci neuronowej. W każdym przypadku dokładność identyfikacji dla przypadku rzeczywistego pomiaru (w trybie przywołania ) jest równie dobra. Podpisy pod rysunkami pozwalają przypisać przedstawiane wyniki odpowiedniemu zagadnieniu. W przypadku zadanej prędkości przepływu, na wejściu sieci neurony przyjmują wartości 5 obserwowanych stężeń migrującej substancji zanieczyszczającej. Na kolejnych rysunkach (od rys. 5.8 do rys. 5.10), na wyjściu sieci, trzy neurony przyjmują wartości współrzędnych x i y położenia źródła wycieku oraz wartość jego intensywności. Dla wszystkich przypadków korelacja dla zbioru uczącego jest wyższa niż 0,975, zaś korelacja dla zbioru testującego jest nie niższa niż 0,95. Są to bardzo dobre wyniki, pozwalające na uzyskanie wiarygodnych ocen położenia i intensywności źródła wycieku.
136 138 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień oczekiwane wartości oczekiwane / odpowiedź sieci x [m] numer wzorca zbiór uczący test Rys Wyniki treningu sieci SNN_542 dla wyznaczenia położenia źródła wycieku w przypadku znanej prędkości przepływu. Na rysunku przedstawiono odpowiedź sieci interpretowaną jako współrzędna x źródła wycieku. Linia niebieska wartości oczekiwane odpowiedzi sieci, punkty oznaczają, zgodnie z legendą, wartości na wyjściu sieci dla przykładów wykorzystanych w procesie treningu i dla przypadków testujących stopień wytrenowania sieci. wartości oczekiwane wartości oczekiwane / odpowiedź sieci x [m] odpowiedź SSN - wzory uczące odpowiedź SSN: test numer wzorca Rys Wyniki treningu sieci SNN_542 dla wyznaczenia położenia źródła wycieku w przypadku znanej prędkości przepływu. Na rysunku przedstawiono odpowiedź sieci interpretowaną jako współrzędna y źródła wycieku. Są to wartości uzyskane na drugim neuronie wyjściowym tej samej sieci (rys. 5.8). Oznaczenia jak wyżej.
137 ROZDZIAŁ 5. Rozprzestrzenianie się zanieczyszczeń w ośrodku gruntowym: identyfikacja parametrów procesu 139 target/odpowiedź sieci: intensywność żródła Numer wzorca Rys Wyniki treningu sieci SNN_543 dla wyznaczenia intensywności źródła wycieku w przypadku znanej prędkości przepływu. Trening dla trzech identyfikowanych parametrów jednocześnie. Linia czerwona wartości oczekiwane odpowiedzi sieci, zielone punkty oznaczają wartości na wyjściu sieci dla przykładów wykorzystanych w procesie treningu, niebieskie dla przypadków testujących stopień wytrenowania sieci. W przypadku nieznanej prędkości przepływu, na wejściu sieci neurony przyjmują wartości pięciu obserwowanych stężeń migrującej substancji zanieczyszczającej oraz pięć wartości naporów hydraulicznych w piezometrach. Prędkość przepływu wód gruntowych zależy od różnicy naporów hydraulicznych, odczyty wartości tych naporów pozwalają na uzyskanie informacji o wartościach prędkości. Dlatego sieci, których zdolność aproksymacji relacji odwrotnej jest analizowana na rysunkach od 5.11 do 5.18, mają budowę: SSN_ W wypadku nieznanej prędkości przepływu, trening jest bardziej skomplikowany. Należało przygotować około 2000 wzorców uczących, sieć jest również bogatsza. Zawiera 8 i 3 neurony w dwóch warstwach ukrytych. Sieć była trenowana dla trzech parametrów źródła jednocześnie. Wyniki aproksymacji otrzymano na podobnym poziomie, jaki uzyskano dla sytuacji z zadanym przepływem. Podpisy pod rysunkami informują o tym, jakiego parametru źródła zanieczyszczenia dotyczą przedstawione wykresy.
138 140 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień 15 wartości oczekiwane / odpowiedź sieci x [m] numer wzorca target output Rys Wyniki treningu sieci SNN_ dla wyznaczenia położenia źródła wycieku w przypadku nieznanej (stałej) prędkości przepływu. Na rysunku przedstawiono odpowiedź sieci interpretowana jako współrzędna x źródła wycieku. Linia niebieska wartości oczekiwane odpowiedzi sieci, punkty oznaczają, zgodnie z legendą, wartości na wyjściu sieci dla przykładów wykorzystanych w procesie treningu. wartości oczekiwane / odpowiedź sieci y [m] numer wzorca target output Rys Wyniki treningu sieci SNN_ dla wyznaczenia położenia źródła wycieku w przypadku nieznanej (stałej) prędkości przepływu. Na rysunku przedstawiono odpowiedź sieci interpretowana jako współrzędna y źródła wycieku. Linia niebieska wartości oczekiwane odpowiedzi sieci, punkty oznaczają wartości na wyjściu sieci dla przykładów wykorzystanych w procesie treningu.
139 ROZDZIAŁ 5. Rozprzestrzenianie się zanieczyszczeń w ośrodku gruntowym: identyfikacja parametrów procesu 141 wartości oczekiwane / odpowiedź sieci numer wzorca oczekiwane otrzymane na wyjściu SSN Rys Wyniki treningu sieci SNN_ dla wyznaczenia współrzędnej x położenia źródła wycieku, w przypadku nieznanej (stałej) prędkości przepływu (ta sama sieć, co na rys. 5.9). Przedstawiono odpowiedź sieci uzyskaną w trybie przywołania. wartości na wyjściu sieci/ wartości oczekiwane numer wzorca oczekiwane 2 wartości 1 wyjściowe SSN Rys Wyniki treningu sieci SNN_ dla wyznaczenia współrzędnej y położenia źródła wycieku, w przypadku nieznanej (stałej) prędkości przepływu (ta sama sieć, co na rys. 5.11). Przedstawiono odpowiedź sieci uzyskaną w trybie przywołania.
140 142 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień 0,8 wartości na wyjściu sieci/ wartości oczekiwane 0,7 0,6 0,5 0,4 0,3 wartości oczekiwane 0,2 0,1 wartości na wyjściu SSN numer wzorca Rys Wyniki treningu sieci SNN_ dla wyznaczenia intensywności c s źródła wycieku, w przypadku nieznanej (stałej) prędkości przepływu (ta sama sieć, co na rys. 5.9). Przedstawiono odpowiedź sieci uzyskaną w trybie przywołania. Wartość oczekiwana/odpowiedź sieci Numer wzorca Rys Wyniki treningu sieci SNN_ dla identyfikacji dyfuzyjności D ośrodka, w przypadku nieznanej (stałej) prędkości przepływu Przedstawiono odpowiedź sieci uzyskaną w trybie przywołania. Zielona linia wskazuje poprawne wartości D, wyniki treningu sieci są bardzo dobrze skorelowane.
141 ROZDZIAŁ 5. Rozprzestrzenianie się zanieczyszczeń w ośrodku gruntowym: identyfikacja parametrów procesu 143 0,8 wartości oczekiwane / odpowiedź sieci 0,7 0,6 0,5 0,4 0,3 0,2 oczekiwane odpowiedź SSN numer wzorca 0,8 wartości oczekiwane / odpowiedź sieci 0,7 0,6 0,5 0,4 0,3 0,2 oczekiwane odpowiedź SSN numer wzorca Rys Identyfikacja wartości natężenia źródła, (SSN_ ). Czerwone punkty to wyniki uczenia sieci. Na rysunku górnym w przypadku 2,5% zaburzenia danych pomiarowych, na rysunku dolnym w przypadku 7,5% zaburzenia danych pomiarowych. W przypadku niezaburzonym jakość aproksymacji ilustruje rys
142 144 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień 0,7 wartości oczekiwane / odpowiedź sieci 0,65 0,6 0,55 0,5 0,45 0,4 0,35 oczekiwane odpowiedź SSN numer wzorca Rys Wyniki treningu sieci SNN_ dla identyfikacji współczynnika Darcy, w przypadku założonego skoku wodoprzepuszczalności ośrodka (rys. 5.4.c.) w przypadku nieznanej (stałej) prędkości przepływu przedstawiono odpowiedź sieci uzyskaną w trybie przywołania. Niebieska linia wskazuje poprawne wartości współczynnika Darcy [10-4 m/s] Niezawodność procesu identyfikacji Powyższe eksperymenty numeryczne zostały przeprowadzone dla wyidealizowanych bytów matematycznych, w szczególności wartości pomiarów były tu wartościami dokładnymi, odczytywanymi z rozwiązania wprost rozpatrywanego zagadnienia. W praktyce, zarówno wartości naporu hydraulicznego, jak i koncentracji są mierzone przy pomocy narzędzi i metod o skończonej, niezerowej dokładności. Omówienie teoretyczne tego zagadnienia jest trudne i przekracza ramy niniejszej książki. Prezentujemy tu jedynie bardzo prosty eksperyment numeryczny, zastępujący analizę wrażliwości wyników identyfikacji na błędy pomiarowe. Eksperyment dotyczy identyfikacji pozycji źródła oraz intensywności źródła w najtrudniejszym przypadku nieznanego przepływu. Nauczono ponownie SSN , ale teraz na przykładach rozwiązań próbnych z zaburzonymi zmierzonymi danymi. Zastosowano losowe perturbacje dla obu pomiarów wirtualnych: naporu hydraulicznego i wartości koncentracji (jest to najbardziej niekorzystny przypadek). Zaburzenie jest uzyskiwane przez superpozycję danych dokładnych z ich perturbacją o rozkładzie normalnym
143 ROZDZIAŁ 5. Rozprzestrzenianie się zanieczyszczeń w ośrodku gruntowym: identyfikacja parametrów procesu 145 o wartości średniej równej 1,25%, 2,5 %, 5%, 7,5% i 10% wartości wirtualnych pomiarów dokładnych. Wyniki treningu SSN są wyraźnie gorsze w obecności tego zaburzenia. Wartości błędu MRS i korelacji są zebrane w tabeli 5.1. Widoczne jest, że błąd identyfikacji jest wciąż na dopuszczalnym poziomie około 5%. Wpływ zaburzeń mierzonych danych na jakość aproksymacji jest przedstawiony na rys Tabela 5.1. Wpływ zaburzeń danych w przypadku błędu RMS i korelacji Zaburzenie [%] Trening Test Błąd RMS Korelacja Błąd RMS Korelacja Podsumowanie identyfikacja zagrożeń dla środowiska wynikających z eksploatacji składowisk Jak się wydaje, w geotechnice środowiska (Environmental geotechnics) identyfikacja parametrów rozprzestrzeniającego się zanieczyszczenia może być przeprowadzona w oparciu o dane ze standardowego monitorowania zawartości substancji zanieczyszczających w wodach gruntowych. Ten problem identyfikacji może być rozwiązywany za pomocą przedstawionej powyżej, autorskiej koncepcji algorytmu rozwiązania zagadnienia odwrotnego, tj. przez aproksymację relacji odwrotnej przy użyciu sztucznych sieci neuronowych. Jedną z ważnych myśli przewodnich tej pracy jest postulat stosowalności w praktyce gospodarczej osiągniętych rezultatów naukowych. Wobec tego, formułując zadanie opracowania metody szybkiego i realistycznego prognozowania rozprzestrzeniania się zanieczyszczeń w ośrodku gruntowym przy użyciu modelu numerycznego, wykalibrowanego i zwalidowanego przez porównanie z wynikami badań doświadczalnych, zdecydowano się sformułować zagadnienie formalne tak, aby mogło mieć zastosowanie w kontekście najbardziej oczywistym z praktycznego punktu widzenia. Taki kontekst praktyczny to zagadnienie rozprzestrzeniania się zanieczyszczeń w gruncie, w granicach lub sąsiedztwie składowiska od-
144 146 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień padów. Przyjęto, że danymi doświadczalnymi, które powinny być wzięte pod uwagę, będą odczyty z urządzeń monitorujących takie obszary. Danymi pomiarowymi będą tu, wobec tego, dane odczytywane z piezometrów, rozmieszczonych w obszarze potencjalnej propagacji zanieczyszczeń. Mając na uwadze taką interpretację praktyczną, uznano, że zagadnienie początkowo brzegowe w którym dane są intensywności i rozkład źródeł zanieczyszczeń, zaś szukany jest rozwój w czasie pola stężenia substancji zanieczyszczającej, jest jedynie elementem problemu praktycznego, który należy rozwiązać. Ponadto jest ono mniej interesujące niż zadanie, w którym dane są wartości stężenia substancji zanieczyszczającej w kilku punktach badanego obszaru. Wartości, o których mowa, to wartości wielkości monitorowanych, dane z obserwacji poziomu wody i stężenia substancji zanieczyszczającej w kilku punktach obserwacyjnych zwykle w piezometrach (ograniczono się do piezometrów, choć stosowane mogą być również inne czujniki odcieków, układane w postaci gęstych siatek bezpośrednio w warstwie izolującej składowiska odpadów). Wielkości szukane to: położenie i intensywność źródła wycieku, prędkości opisujące zmiany pola stężeń oraz efektywne właściwości ośrodka, w którym następuje propagacja zanieczyszczeń. Innymi słowy, wydaje się, że zarówno z praktycznego jak i naukowego punktu widzenia, najważniejsze jest rozwiązanie zagadnienia odwrotnego związanego z rozwojem pól fizycznych będących miarą zanieczyszczenia środowiska. Uznano za oczywiste, że techniki rozwiązania zagadnienia wprost są stosunkowo dobrze poznane i istnieje wiele narzędzi prowadzących do inżynierskich rozwiązań zagadnień sformułownych dla pól stężeń substancji zanieczyszczających i rozwoju tych pól w czasie, podczas gdy rozwiązanie zadania odwrotnego wymaga zwykle indywidualnego sformułowania w większości praktycznych przypadków. Proste, inżynierskie (przybliżenia jakościowe lub numeryczne) techniki rozwiązania zagadnienia odwrotnego są wciąż mało znane i wobec tego stały się elementem przedstawionych eksperymentów numerycznych. Za najważniejsze osiągnięcie teoretyczno-praktyczne uważam zaproponowaną tu prostą technikę rozwiązania zadania odwrotnego, która nie wymaga indywidualnego podejścia dla każdego przypadku, ale polega na odpowiednim wykorzystaniu znanych rozwiązań wprost dla zagadnień rozprzestrzeniania się zanieczyszczeń w ośrodku.
145 ROZDZIAŁ 5. Rozprzestrzenianie się zanieczyszczeń w ośrodku gruntowym: identyfikacja parametrów procesu 147 Procedura identyfikacji, która stosuje sztuczne sieci neuronowe, jest prezentowana na przykładzie parametrów problemu konwekcji z różnym stopniem dokładności i różnej architektury sieci neuronowej. Wszystkie parametry procesu, takie jak położenie stanowiska źródłowego, intensywność źródła, wektor dyfuzji, mogą być łatwo zidentyfikowane za pomocą bardzo małej sieci (minimalne architektury) oraz z dużą precyzją. W przypadku, kiedy pole prędkości jest zadane lub zerowe, wszystkie parametry źródła zanieczyszczenia (położenie wycieku i jego intensywność) są łatwe do określenia. Wodoprzepuszczalność i dyfuzyjność obszaru migracji zanieczyszczeń mogą być zidentyfikowane podobnie łatwo, jak parametry procesu. Wystarczy tu niewielka sztuczna sieć neuronowa, podobna do tej, jaką zastosowano w przykładach numerycznych. W przypadku, kiedy pole prędkości jest jednorodne, ale nieznane, wszystkie parametry źródła zanieczyszczenia (położenie wycieku i jego intensywność) są trudniejsze do określenia. Na wejściu sieci powinny pojawić się wartości naporów hydraulicznych w piezometrach. Liczba neuronów wejściowych podwaja się, lecz wodoprzepuszczalność i dyfuzyjność obszaru migracji zanieczyszczeń mogą być zidentyfikowane z podobną dokładnością jak dla zadanej prędkości. Podobnie parametry źródła zanieczyszczenia. W przypadku skoku wartości wodoprzepuszczalności liczba piezometrów powinna być o wiele większa, powinny one równomiernie otaczać obszar składowiska. W takim przypadku identyfikacja parametrów źródła jest wciąż możliwa, jednak liczba neuronów wejściowych i liczba generowanych przykładów uczących (rozwiązań wprost ) musi być znaczna, wyznaczona eksperymentalnie dla każdego indywidualnego przypadku składowiska odpadów.
146 Rozdział 6. Uogólniona metoda autokoherentna w teorii homogenizacji jako problem odwrotny Główną ideą metody autokoherentnej, jednej z metod używanych w teorii homogenizacji (Self Consistent, SC), jest sprowadzenie zagadnienia niejednorodnego mechaniki ośrodka ciągłego, w którym nieskończenie wiele podobszarów jest wypełnionych materiałami o różnych właściwościach mechanicznych jednym ośrodkiem jednorodnym o pewnej efektywnej, uśrednionej w specjalny sposób rodzinie parametrów mechanicznych. Zgodnie z metodą autokoherentną, ten jednorodny ośrodek oddziaływuje w sposób możliwie najbardziej neutralny z pewną regularyzowaną, wyidealizowaną inkluzją, dla której proporcje materiałów o różnych właściwościach są takie same, jak proporcje mikroskładników w problemie wyjściowym [8], [9], [11]. W przypadku niejednorodnej struktury, zbudowanej z losowego układu cząstek rozmieszczonych tak, że da się ustalić statystyczne zawartości poszczególnych materiałów w kompozycie, górne i dolne granice dla właściwości efektywnych mogą być oszacowane na wiele sposobów (patrz [13], [14], [107], [108] [203]) w ramach tej teorii. Niestety, w przypadku pustek lub sztywnych inkluzji metoda autokoherentna daje bardzo nieprecyzyjne oszacowania parametrów efektywnych kompozytu [13]. Aby usunąć tę wadę, w uogólnionej metodzie autokoherentnej (Generalised Self Consistent, GSC) przyjmuje się idealizację materiału niejednorodnego w formie koncentrycznych obszarów o regularnym kształcie geometrycznym (kula, walec dla płaskiego stanu, elipsoidy), z których zewnętrzny ma właściwości matrycy, zaś wewnętrzy właściwości materiału wzmacniającego. Geometria obszarów jest tak dobrana, aby odzwierciedlić właściwie średnią objętościową zawartość materiału wzmacniającego w materiale matrycy. Ta inkluzja o złożonej, choć elementarnej, geometrii otoczona jest jednorodnym, nieskończonym ośrodkiem o nieznanych, efektywnych właściwościach mechanicznych.
147 ROZDZIAŁ 6. Uogólniona metoda autokoherentna w teorii homogenizacji jako problem odwrotny 149 Zazwyczaj, w ramach sformułowania GSC można uzyskać zamknięte formuły symboliczne, pozwalające na obliczenie górnego i dolnego ograniczenia wartości efektywnych parametrów mechanicznych ośrodka kompozytowego. Jednak w przypadku zagadnienia, w którym składniki kompozytu wykazują zachowanie termo-sprężysto-plastyczne, takie podejście może okazać się bardzo trudne. W tym rozdziale, tak jak to przedstawiono wcześniej w artykule [13], zostanie przedstawione sformułowanie algorytmu GSC, w zastosowaniu do homogenizacji nieliniowego kompozytu zbudowanego jako wiązka długich, niejednorodnych włókien. W ramach metody GSC problem zostanie sprowadzony do zagadnienia termo-sprężysto-plastyczności n-warstwowego zbioru izotropowych cylindrycznych inkluzji zanurzonych w sprężysto-plastycznej matrycy. W pracy [13], aby zdefiniować zagadnienie autokoherentnej homogenizacji kompozytu włóknistego, sformułowano trzy zagadnienia pomocnicze. - Pierwsze z nich to zagadnienie n + 1 koncentrycznych cylindrów zanurzonych w jednorodnym, nieskończonym materiale efektywnym. Jest to idealizacja niejednorodnych inkluzji (wewnętrzne cylindry) i powłoki zewnętrznej matrycy. Zagadnienie to jest rozwiązane metodą elementów skończonych (MES), rozwiązanie jest powtarzane wielokrotnie dla wielu próbnych wartości charakterystyk materiałowych zewnętrznego, nieskończonego ośrodka jednorodnego. Te próbne wartości to możliwe wartości nieznanych, efektywnych parametrów struktury. - Drugie zagadnienie to podobne zagadnienie, ale dla nieskończonego, jednorodnego obszaru. To zagadnienie ma proste rozwiązanie symboliczne. - Trzecie zagadnienie to zagadnienie minimalizacji. Zbiór parametrów efektywnych minimalizuje odległość między rozwiązaniem zadania jednorodnego (zagadnienie drugie) i problemu pierwszego (koncentryczne cylindry z różnych materiałów, tworzących realny kompozyt, zanurzone w ośrodku nieskończonym). Odległość ta ma dobrze określony sens fizyczny i będzie wyprowadzona z postulatu Hilla o odpowiedniości między materiałem ujednorodnionym a kompozytem, który zwykle jest formułowany dla komórki reprezentatywnej. Sformułowane tu zagadnienie nie jest identyczne z klasycznym sposobem obliczania efektywnych parametrów materiałowych, znanych jako metoda autokoherentna. W artykule [13] metoda ta jest określona skrótem GSCL (Generalised Self Consistent Like). W pracy [13], dla ustalenia efektywnych charakterystyk materiałowych kompozytu użyto metody numerycznej minimalizacji, bazującej na metodzie najszybszego spadku, zastosowanej do rozwiązania zagadnienia opisanego wyżej jako trzecie. Alternatywnie, w tym rozdziale, wartości efektywnych charakterystyk materiałowych kompozytu
148 150 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień zostaną uzyskane przez rozwiązanie zagadnienia odwrotnego przy użyciu sztucznej sieci neuronowej (SSN), aproksymującej zależność odwrotną. SSN uczona jest za pomocą gradientów odległości pomiędzy rozwiązaniem jednorodnym a rozwiązaniem dla kompozytu, dla pewnej liczby próbnych wartości efektywnych charakterystyk materiałowych kompozytu. Odpowiednia relacja wprost to zależność gradientu odległości (określonej formalnie w dalszym ciągu tego rozdziału) między zagadnieniem pierwszym, niejednorodnej inkluzji i drugim odpowiadającym mu, efektywnym rozwiązaniem jednorodnym, od parametrów konstytutywnych użytych w zagadnieniu jednorodnym, interpretowanych jako parametry efektywne ujednorodnionego kompozytu. Ta relacja to oczywiście sposób obliczenia gradientów odległości, o której mowa. Oczywiście, gradienty te zostaną obliczone na podstawie rozwiązania zagadnienia niejednorodnego metodą elementów skończonych. Relacja odwrotna zostanie przybliżona za pomocą sztucznej sieci neuronowej trenowanej, jak we wszystkich poprzednich rozdziałach, za pomocą par ciągów: {próbne parametry konstytutywne, wartości gradientów funkcjonału, będącego miarą odległości}. Należy podkreślić, że nie zakłada się a priori nieliniowego zachowania się materiału efektywnego. Charakter związku konstytutywnego okaże się wynikiem jakościowym podjętych obliczeń dla każdego, kolejnego kroku czasowego, w procesie ogrzewania i chłodzenia kompozytu. Nieliniowa ewolucja efektywnego zachowania się kompozytu będzie wynikała z założonych, plastycznych właściwości matrycy ośrodka włóknistego, zależności od temperatury, przyjętych parametrów charakteryzujących materiał oraz od ewentualnego pękania włókien kompozytowych. Te czynniki zostaną wzięte pod uwagę w rozwiązaniu zagadnienia niejednorodnego metodą elementów skończonych. Zaletę związaną z zastosowaniem SSN w cyklu czasowym rozwiązań MES upatruje się w tym, że raz wytrenowana, pozwoli zmniejszyć liczbę niezbędnych rozwiązań zagadnienia MES Zagadnienie termomechaniki wiązki nadprzewodzącej Metoda autokoherentna, interpretowana jako zagadnienie odwrotne, zostanie zastosowana do rozwiązania problemu homogenizacji wiązki kabli nadprzewodzącej prąd elektryczny w temperaturze bliskiej zera absolutnego (około 4 K). Każdy z kabli jest złożonym kompozytem włóknistym (rys. 6). W serii artykułów
149 ROZDZIAŁ 6. Uogólniona metoda autokoherentna w teorii homogenizacji jako problem odwrotny 151 kabel taki był analizowany w kontekście jego zastosowania w międzynarodowym, eksperymentalnym reaktorze termonuklearnym ITER, konstruowanym w Cadarache we Francji. Prace te rozwijano w ramach licznych grantów dotyczących tej konstrukcji. W chwili obecnej reaktor ten jest na zaawansowanym etapie budowy. Należy jednak podkreślić, że podobne, strukturalne kable nadprzewodzące są stosowane w wielu gałęziach nauki, fizyki eksperymentalnej i energetyki nuklearnej. Badanie i projektowanie ich właściwości jest ważnym tematem naukowym. Większość wiązek tego typu składa się z włókien zbudowanych z Nb 3 Sn (trójniobek cyny). Ten intermetaliczny komponent wykazuje zależność właściwości nadprzewodzących nie tylko od temperatury, ale także od odkształcenia. Dlatego bardzo precyzyjny opis stanu odkształcenia jest ważny dla kontroli warunków, w których występuje nadprzewodzenie. Obciążenie termiczne będzie jedynym, rozważanym w tej pracy. Należy jednak pamiętać, że podczas cyklu operacyjnego wiązka podlega bardzo dużym obciążeniom pochodzącym od siły Lorentza [97], [98], [99]. Ze względu na dużą łamliwość, kruchy Nb3Sn wymaga specjalnego sposobu formowania. Zazwyczaj włókna Nb3Sn formowane są w ten sposób, że cyna i niob reagują ze sobą pod wpływem wygrzewania w układzie geometrycznym, który nie ulega większym zmianom oprócz, oczywiście, redukcji wymiaru poprzecznego, typowej dla formowania drutów techniką przeciągania. Powstają bardzo cienkie grupy włókien nadprzewodnika, które następnie są wtapiane w miedzianą matrycę. Włókna te następnie są skręcane grupami (skok skręcenia jest tutaj bardzo duży, tak że włókna pozostają niemal równoległe). Kolejno, wiązki zatapiane są w metalu. Ten metal to miedź, w trakcie obróbki termicznej powstają obszary brązu, dominujące w przekroju wiązki. Miedź, jako materiał o bardzo małym oporze elektrycznym, otacza wiązkę i jest od niej zwykle oddzielona barierą z tantalu. Dwie wersje typowych kabli nadprzewodzących przedstawiono na rys Wariant pokazany na rys. 6.2a to włókno typu EAS (European Advanced Superconductors): matryca z brązu, z 55 grupami włókienek Nb3Sn grupowanymi po 85 w grupie. Po prawej stronie widać barierę z tantalu oraz zewnętrzny pierścień miedzi. W procesie formowania nadprzewodnika można wyróżnić kilka faz: fazę, w której cyna i niob reagują w wysokiej temperaturze około 923 K. Włókna są utrzymywane w tej temperaturze przez wiele godzin, koniecznych, aby cała objętość cyny dyfundowała do obszaru niobu. Mimo tego, wewnątrz mikrowłókien pozostają obszary rezydualne czystej cyny. Następnie włókna są chłodzone do temperatury pokojowej. Trzeci przedział temperaturowy to temperatura operacyjna 4,2 K, w tej temperaturze, chłodzony ciekłym helem, nadprzewodnik funkcjonuje w reaktorze.
150 152 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Współczynniki rozszerzalności termicznej komponentów włókna kompozytowego są różne, stąd konieczność starannej analizy stanu odkształcenia na każdym etapie obróbki termicznej. Należy ponadto stwierdzić, że w procesie kształtowania wiązki nadprzewodzącej frakcje poszczególnych materiałów w objętości kompozytu są dokładnie znane. Dlatego wydaje się, że zastosowanie metody autokoherentnej jest uzasadnione. Oczywiście, inne metody homogenizacji były również stosowane w innych pracach zespołu autorskiego, szczególnie metoda asymptotyczna, zakładająca periodyczną strukturę hierarchicznego kabla na każdym stopniu hierarchii strukturalnej. W tej pracy zostanie zastosowana metoda GSCL do obliczenia charakterystyk efektywnych termo-mechanicznych wewnętrznego obszaru włókna (matryca z brązu, zbrojenie włókniste z Nb3Sn) jako funkcji temperatury w procesie chłodzenia. Zostanie wzięte pod uwagę sprężysto-plastyczne zachowanie się brązu oraz możliwe nieciągłości przerwanego, kruchego materiału nadprzewodnika. Na rys. 6.1 przedstawione jest zaobserwowane zjawisko pękania włókien. Rys Zdjęcie obrazu uzyskanego z mikroskopu elektronowego, pokazujące morfologię pęknięć. Dobrze widoczne nieciągłości grup włókien nadprzewodnika Nb3Sn (dzięki uprzejmości Dr M. Jewell, autora zdjęcia i interpretacji obrazu). W modelu przyjęto jedynie dwa materiały mikrostruktury: włóknistą inkluzję z Nb3Sn oraz matrycę z brązu. Zakładamy, że komponenty te są w równowadze termicznej i mechanicznej w temperaturze 923 K, w tym sensie, że w tej temperaturze znikają naprężenia i odkształcenia rezydualne. Czas potrzebny na uformowanie się nadprzewodzącej mikrostruktury jest tak długi, że pozwala na wyrównanie temperatury, relaksację naprężenia i ustalenie się kształtu kompozytu na poziomie
151 ROZDZIAŁ 6. Uogólniona metoda autokoherentna w teorii homogenizacji jako problem odwrotny 153 mikrostruktury. Charakterystyki termiczne materiału w całym, analizowanym przedziale temperatur nie są łatwe do ustalenia. Przybliżone dane przyjęto z pracy [133]. a. b. Rys Dwie typowe organizacje strukturalne włókna nadprzewodzącego. Na rys. a przedstawiono włókno EAS (European Advanced Superconductors): włókna nadprzewodzące zebrane w 55 grup, po 85 włókien zanurzonych w matrycy z brązu. Cienka warstwa tantalu oddziela obszar brązu od zewnętrznej osłony z miedzi. Szczegół włókna pokazano po prawej stronie rysunku. Dane opisane w tym rozdziale dotyczą rysunku a. Widać, że również w sytuacji b. analiza autokoherentna może mieć zastosowanie rysunki otrzymane dzięki uprzejmości prof. P.J. Lee, UW Madison Applied Superconductivity Center, publikowane wcześniej w [12] Metoda autokoherentna (GSCL) jako problem odwrotny Autokoherentna idealizacja, jaką przyjęto dla tego zagadnienia, będzie wymagała opisu fikcyjnego układu współśrodkowych obszarów cylindrycznych, zawierających poszczególne składniki kompozytu. Wobec osiowej symetrii wybrano do tego opisu układ współrzędnych cylindrycznych, gdzie r jest współrzędna promieniową, θ jest współrzędną kątową, zaś z współrzędną osiową Problem wprost Określono obszar wypełniony idealizacją kompozytu zgodną ze schematem autokoherentnym: Ω1 Ω2... Ωi... Ω I =Ω self. Każdy z cylindrycznych podobszarów Ω jest wypełniony materiałem numer i. Promień cylindra jest tak i
152 154 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień wybrany, aby zapewnić taką frakcję objętościową materiału numer i, jaka występuje w rzeczywistym kompozycie. Obszar oznaczony symbolem Ω I to obszar zewnętrzny w stosunku do systemu współosiowych cylindrów, nieskończony, wypełniony nieznanym, ujednorodnionym, w pewnym sensie fikcyjnym, materiałem o nieznanych parametrach, występujących w związkach konstytutywnych, które go opisują. Ten materiał, rozumiany jako produkt myślowego ujednorodnienia struktury kompozytu (homogenizacji), zwany też materiałem efektywnym, otacza niejednorodną inkluzję. Ostatni numer na liście materiałów dotyczy tego właśnie obszaru. Jest oczywiste, że niejednorodna struktura wypełnia również ten obszar. Istotą idealizacji związanej z metodą autokoherentną jest zastąpienie tej struktury pewnym zastępczym, jednorodnym materiałem efektywnym, tak, jak to sformułowano powyżej. Rys Ilustracja idei metody autokoherentnej (dzięki uprzejmości C. Boutin, rysunek pochodzi z Jego wykładu). Problem polega na znalezieniu trójki: {σ, ε, u}, złożonej z dwóch tensorów (odpowiednio) naprężenia i odkształcenia oraz z wektora przemieszczenia, określonych na obszarze Ω self, w ten sposób, że dla danego, monotonicznego przyrostu temperatury T obliczonego w stosunku do pewnej temperatury T oraz dla zadanych obciążeń zewnętrznych, trójka ta spełnia w każdym z podobszarów następujące układy równań: związki konstytutywne dla cylindrów wewnętrznych: el i i i i i e r 1 ν ν σ r β (6.1a) el i 1 i i i i eθ = ν 1 ν + T i ( 1,..., I 1 i σθ β ) E el i i i i i ez ν ν 1 σz β
153 ROZDZIAŁ 6. Uogólniona metoda autokoherentna w teorii homogenizacji jako problem odwrotny 155 związek konstytutywny dla materiału zewnętrznego: 1 ν ν z I E E Ez I ε r σ r β I ν 1 ν z I εθ = σθ + T β I E E Ez I ε z σ z β z νz νz 1 Ez Ez Ez (6.1b) Założono tu izotropię materiałów składowych dla kompozytów oraz ortotropię dla materiału efektywnego. Ω true Matryca Inkluzja niejednorodna Ω sel f Ω hom r=r 1 r=r 2 r=r 3 r Rys Materiał kompozytowy złożony z matrycy i inkluzji niejednorodnej (rysunek górny, Ω true ), schemat przyjęty dla metody autokoherentnej GSCL (rysunek lewy dolny, Ω self ) równoważny ośrodek jednorodny (rysunek prawy dolny, Ω hom ). Promień r 3 dla Ω self jest obliczony tak, aby frakcje materiałów w koncentrycznych obszarach były takie same jak frakcje składników rzeczywistego kompozytu. Obszary te zdefiniowane są dla zagadnienia wprost : r 1, r 2,..., r i,..., r i-1 są promieniami podobszarów, materiał obszaru zewnętrznego, nieskończonego, jest scharakteryzowany parametrami materiałowymi nieznanymi a priori, interpretowanymi jako efektywne właściwości kompozytu.
154 156 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień W równaniach indeks i oznacza numer danego materiału kompozytu, indeks I wskazuje na naprężenie i odkształcenia w obszarze zewnętrznym (materiał numer I), podczas gdy parametry materiałowe w obszarze zewnętrznym pozostawiono bez indeksu. E jest modułem Younga, ν jest współczynnikiem Poissona, współczynniki β to współczynniki rozszerzalności termicznej materiałów. Indeks górny el oznacza wartość parametru w zakresie sprężystym. Pozostałe symbole mają znaczenie standardowe: ε j to składowa numer j tensora małego odkształcenia, σ j to składowa numer j tensora naprężenia, zaś T oznacza temperaturę. Pole przemieszczeń u jest związane z tensorem odkształcenia równaniem zgodności, ważnym dla małych odkształceń i małych przemieszczeń, dla przypadku osiowej symetrii: u i i r ( r) ε r =, u i i i r ( r) i uz ( z) ε θ =, ε z =, i ( 1..I ) (6.2) r r z W każdym z obszarów cylindrycznych spełnione są równania równowagi: i i i σ r σr σ i + θ = 0, z = 0 r r z σ, i ( 1..I ) (6.3) Zbiór równań kończy zapis warunków ciągłości na powierzchniach wspólnych dla różnych, sąsiednich obszarów materialnych: u i i i+ 1 i+1 = u, r( ur) r ( ur ) i i+1 r= ri I I σ =σ, σ ( u ) = 0 i ( 1,...,I 1) r= ri r r r (6.4) Dla tych składników kompozytu, które wykazują zachowanie sprężystoplastyczne, zakładamy addytywny rozkład tensora odkształcenia na część sprężystą i plastyczną: ε i = ε εl i + ε pl i (6.5) Przyjmujemy również typową zależność konstytutywną dla części sprężystej: ( ) i i i pli σ = C ε ε (6.6) i gdzie w zapisie absolutnym oznaczono przez C tensor stałych sprężystości dla materiału numer i. Dopuszczalne stany naprężenia w przestrzeni naprężeń ogranicza odpowiednia powierzchnia plastyczności. W tej pracy wybrano hipotezę Von Misesa i związane z nią kryterium: f i i = σ y 1 2 i i ( σ r σ θ ) 2 i + σ r i ( σ z ) 2 i i + σ z σ θ ( ) = 0 (6.7)
155 ROZDZIAŁ 6. Uogólniona metoda autokoherentna w teorii homogenizacji jako problem odwrotny 157 Rozważamy jedynie plastyczność sprzężoną, wobec tego prawo plastycznego płynięcia sformułowano w sposób klasyczny, następująco: i pl i i f = (6.8) i ε l σ i gdzie σ oznacza wartość naprężenia plastycznego dla materiału numer i, zaś v jest prędkością odkształcenia plastycznego, która spełnia warunki Kuhna-Tuckera: i i i i λ 0, dla f 0, f λ = 0, Powyżej sformułowano termo-sprężysto-plastyczny problem zdefiniowany w każdym z podobszarów obszaru Ω self. Nie jest to jawnie zapisane, jednak we wszystkich rozważaniach brano pod uwagę zależność parametrów materiałowych od temperatury. Dla tak sformułowanego zagadnienia nie jest możliwe znalezienie ogólnego rozwiązania symbolicznego. Dlatego zadanie powyższe, dla różnych, próbnych wartości E oraz ν, rozwiązano wielokrotnie, używając metody elementów skończonych Problem odwrotny Problem odwrotny jest sformułowany następująco: poszukujemy pewnego efektywnego opisu materiału tak, aby określony poniżej funkcjonał F, wyrażający odległość między rozwiązaniem dla ośrodka niejednorodnego (problem wprost ) a rozwiązaniem dla ośrodka jednorodnego, zależnym od poszukiwanych efektywnych parametrów materiałowych osiągnął minimum. Rozwiązanie dla ośrodka jednorodnego, zależne od poszukiwanych efektywnych parametrów materiałowych, jest łatwe do skonstruowania. Tym rozwiązaniem jest trójka pól: {σ hom, ε hom, u hom }. Przyjęto, że w przypadku materiału efektywnego nie powinien być formułowany nieliniowy związek konstytutywny. Zamiast tego, na każdym etapie obciążenia, zostaną obliczone moduły Younga i współczynniki Poissona. W ten sposób zależność nieliniowa zostanie przybliżona krzywą ilustrującą zmiany modułu Younga i współczynnika Poissona w trakcie ewolucji obciążenia. Ponieważ zadanie niejednorodne rozwiązane jest zawsze z uwzględnieniem plastyczności, również dla przypadku odciążania można śledzić ewolucję efektywnych parametrów materiałowych. Pole przemieszczeń i pole naprężeń, rozwiązania zagadnienia jednorodnego, dane są poniższymi wzorami, w których ε z jest, tak jak i T, zadanym parametrem obciążenia: u = r β+ν β T ν ε (6.9) (( ) ) hom r z z z z i λ
156 158 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień σ hom r =σ homθ = 0, σhom z = ( εhom z βz T) Ez (6.10) Wielkości z indeksami r, t, z to składowe wektorów na odpowiednich osiach biegunowego układu współrzędnych. To rozwiązanie powinno być uaktualniane dla każdego kolejnego przyrostu obciążenia, w tym sensie zależy od ścieżki obciążenia. Należy podkreślić, że jest ono funkcją efektywnych modułów Younga i współczynników Poissona występujących w (6.1.b). Problem odwrotny, stowarzyszony z metodą GSCL, może być opisany następująco: Znaleźć uporządkowany zbiór parametrów E eff = {E, ν,e z, ν z, β, β z } (pojawiających się w równaniach (6.1.b)), dotyczących zewnętrznego obszaru nieskończonego Ω I (rys. 6.4) tak, że dla każdego kroku T jednorodnego i monotonicznego przyrostowego obciążenia temperaturą T oraz dla każdego zadanego zewnętrznego obciążenia, funkcjonał: Fself = eself d Ωself : sself dωself Ωself Ωself (6.11) Jest równy wartości energii wewnętrznej jednorodnego obszaru wypełnionego materiałem efektywnym o parametrach E eff, w temperaturze T i dla tego samego jednorodnego monotonicznego przyrostu T temperatury T i dla danego obciążenia zewnętrznego. Łatwo zauważyć, że równanie: F = ε : σ dω (6.12) hom hom hom hom Ωhom F self = F hom (6.13) jest równoważne znanemu kryterium Hilla, którego spełnienie jest postulowane dla każdej objętości reprezentatywnej kompozytu. Podkreślamy, że problem odwrotny, jaki został sformułowany, nie jest klasycznie rozumianym zagadnieniem odwrotnym, gdyż prawa strona równania (6.11) zależy od nieznanych, efektywnych charakterystyk materiałowych E eff. Jest to źródłem pewnych komplikacji numerycznych i kolejnych przekształceń tego sformułowania.
157 ROZDZIAŁ 6. Uogólniona metoda autokoherentna w teorii homogenizacji jako problem odwrotny Problem odwrotny wyrażony za pomocą gradientu funkcjonału Hilla Wyrażenie (6.14) może być rozumiane jako miara różnicy pomiędzy zachowaniem się ośrodka niejednorodnego i ujednorodnionego. Dla pewnych wartości efektywnych parametrów materiałowych różnica ta będzie najmniejsza. Można zauważyć, że jeżeli miara F określona wzorem: e : s dω e d Ω : s dω F (6.14) hom hom hom self self self self Ωhom Ωself Ωself 2 osiąga minimum, wtedy również postulat Hilla jest spełniony. Wobec tego, warunek minimum wyrażenia (6.14) może być traktowany jako wygodna forma postulatu Hilla. W pracy [13] przedstawiono i przeanalizowano wiele innych propozycji takiej miary. Zdecydowano się obliczyć metodą numeryczną gradient funkcjonału F w funkcji wartości efektywnych materiału {E, ν,e z, ν z, β, β z }. Jest to zadanie stosunkowo łatwe. Wobec tego, problem odwrotny stowarzyszony z metodą autokoherentną w sformułowaniu GSCL może być zapisany w następujący sposób: Znaleźć uporządkowany zbiór parametrów E eff = {E, ν,e z, ν z, β, β z } (występujących w równaniu (6.1.b)), określony dla zewnętrznego, nieskończonego obszaru Ω I (rys. 6.4), taki, aby dla każdego jednorodnego i monotonicznego przyrostu T temperatury T oraz dla każdego danego obciążenia zewnętrznego gradient funkcjonału: był równy zeru: ( ) 2 hom self F F F (6.15) F G = 0 (6.16) E Podejście oparte na obliczeniach miękkich zostanie tu zastosowane, aby rozwiązać problem poszukiwania minimum. Zastosowana zostanie metoda bezpośredniej aproksymacji relacji odwrotnej, jaka wiąże wartości parametrów materiałowych składników kompozytu z wartościami gradientu (6.16). W tym podrozdziale zostanie opisane zastosowanie klasycznej sztucznej sieci neuronowej warstwowej, trenowanej metodą wstecznej propagacji błędu, do rozwiązania przedstawionego powyżej problemu. Rozważmy przede wszystkim zastosowanie SSN do aproksymacji relacji odwrotnej dla miejsca zerowego gradientu (6.16).
158 160 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień Użyta metoda numeryczna jest podobna do tej, jaką zastosowano w pracy [13] w kontekście identyfikacji parametrycznej. Zgodnie z tą metodą, SSN trenowana jest wzorcami uzyskanymi dzięki rozwiązaniu zadania wprost, wyrażającymi relację pomiędzy efektywnymi parametrami materiałowymi i miarą F (6.14) różnicy pomiędzy zachowaniem się kompozytu i ośrodka ujednorodnionego Zastosowanie sztucznej sieci neuronowej do rozwiązania problemu odwrotnego Tak, jak to opisano w rozdziale trzecim, w warstwie wyjściowej sztucznej sieci neuronowej, przekształcony przez SSN sygnał wejściowy jest porównywany z jego znaną wartością docelową. Obliczana jest wartość błędu, następnie wagi połączeń międzywęzłowych są tak kształtowane, aby zminimalizować różnicę pomiędzy wartością obliczoną przez SSN a wartością oczekiwaną. Proces ten nazywa się uczeniem nadzorowanym, kontrola nad treningiem możliwa jest, jeśli posiadamy odpowiednie bazy danych zawierających pary odpowiadających wartości wejścia-wyjścia. Dla naszego problemu, możliwe są dwa podejścia. Pierwsze polega na bezpośrednim rozwiązaniu problemu optymalizacji: eff znaleźć E = { E, n, E z, n z, ββ, z } takie,że eff eff (, ) (, ) F F E T F E T osiąga minimum (6.18) P1 hom Podejście to jest identyczne z zastosowanym w artykule [13]. Alternatywne podejście wybrane w niniejszym rozdziale prowadzi do problemu odwrotnego opisanego powyżej i podobnego do innych zagadnień odwrotnych rozwiązanych w rozdziałach poprzednich. W tym wypadku chodzi o to, aby skonstruować operator SSN (operator będący sztuczną siecią neuronową), który działa ze zbioru wszystkich wartości próbnych gradientu G funkcjonału F do zbioru wszystkich możliwych dla przyjętego modelu wartości parametrów efektywnych materiału ujednorodnionego. SSN realizuje numerycznie relację, która przypisuje każdej wartości wektora G wartości elementów zbioru uporządkowanego E eff takie, że podczas rozwiązania problemu wprost, użyte jako parametry próbne dały w rezultacie obliczeń te właśnie wartości wektora G, które wprowadzono na wejście sieci. Rzeczywisty zbiór parametrów E eff = {E, n,e z, n z, β, β z }, minimalizujący miarę F, jest więc obrazem uzyskanym dla szczególnej wartość G = 0 przez odwzorowanie realizowane przez SSN: = {E, n,e z, n z, β, β z } = {E h, n h, E h z, n h z, β h, β h z} (6.19)
159 ROZDZIAŁ 6. Uogólniona metoda autokoherentna w teorii homogenizacji jako problem odwrotny 161 Innymi słowy, zestaw parametrów efektywny uzyskuje się, wprowadzając w trybie przywołania wektor o zerowych współrzędnych na wejście właściwie wytrenowanej sztucznej sieci neuronowej. We wzorze (6.19) indeks górny h wyróżnia wartości uważane za efektywne w sensie zdefiniowanym schematem GSCL. Jeżeli aproksymator relacji odwrotnej istnieje, wymóg (6.18) zostanie spełniony w sensie najmniejszych kwadratów, gdyż w taki sposób zostanie wytrenowana SSN. Rozwiązując zagadnienie wprost za pomocą metody elementów skończonych, otrzymuje się zbiory złożone z wartości składowych gradientu G oraz odpowiadających im uporządkowanych zbiorów wartości parametrów efektywnych. Stworzony w ten sposób zbiór danych (wyniki obliczeń wprost dla przykładowych, próbnych wartości parametrów materiałowych) posłuży do skonstruowania wzorców trenujących dla sztucznej sieci neuronowej. Wzorce te to przykłady realizacji relacji odwrotnej. Trening odbywa się w ten sposób, że wartości komponentów gradientu są wprowadzane na wejście sieci, zaś odpowiednie wartości zmiennych niezależnych (efektywnych parametrów materiałowych) są użyte jako wartości spodziewane (target) na wyjściu sieci. Metoda unikania wieloznaczności przy aproksymacji odwzorowania odwrotnego, opisana w rozdziale trzecim, została zastosowana podczas obliczeń Studium przypadku: homogenizcja wiązki nadprzewodzącej W tym przykładzie numerycznym bierzemy pod uwagę rzeczywisty przypadek wiązki nadprzewodzącj (rys. 6.2), która jest rozważana jako możliwa do zastosowania (jedna z wielu opcji technologicznych) do budowy głównej cewki nadprzewodzącej reaktora termojądrowego ITER (ITER International Thermonuclear Experimental Reactor). Reaktor ten jest obecnie w stadium realizacji. Większość rozpatrywanych alternatywnych konstrukcji cewki reaktora ITER jest opartych na zastosowaniu wiązek, w których nadprzewodnikiem jest trójniobek cyny Nb 3 Sn. Właściwości nadprzewodzące tego związku zależą nie tylko od temperatury (zależność od temperatury jest oczywista), ale także od stanu odkształcenia. Implikuje to konieczność możliwie dokładnego zdefiniowania właściwości konstytutywnych oraz pól naprężeń w cewce i w wiązce nadprzewodzącej. Oznacza to również, że w tej hierarchicznej strukturze znajomość pól przemieszczeń na poziomie makro (cewka) powinna umożliwić wyznaczenie stanu odkształcenia na poziomie mezo (wiązka) i na poziomie mikro (pojedyncze włókno nadprzewodnika). Pola przemieszczeń na poziomie makro są
160 162 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień wynikiem obliczeń metodą elementów skończonych, przeprowadzonych dla całej struktury, w której sztywność cewki jest wyznaczona jedną z możliwych metod homogenizacji. Pola odkształceń na poziomie mezo i mikro są rezultatem kolejnych lokalizacji (w tym kontekście lokalizacja to operacja odwrotna do homogenizacji, określana też w pracach poprzednich angielskim terminem unsmearing ). Dlatego też wyznaczenie pól naprężeń i odkształceń jest kluczowym elementem prawidłowego doboru mikro- i mezostruktury nadprzewodnika do warunków operacyjnych pracy i konstrukcji reaktora. Jest to opisane w artykułach [133], [159]. Ze względu na jego kruchość, włókno Nb 3 Sn wymaga specjalnych procesów wytwarzania: materiały składowe kompozytu intermetalicznego w formie krępych walców o wysokości około jednego metra są układane w odpowiedni sposób tak, aby w wyniku wieloetapowego procesu ciągnienia (formowanie cienkiego przewodu) powstała struktura widoczna na rys W tym momencie konstruowania kompozytu znana jest precyzyjnie zawartość wszystkich jego frakcji. Mieszanina metali w wyniku kolejnych procesów ciągnienia uzyskuje potrzebne wymiary przekroju poprzecznego i geometrię splotu o dużym skoku. Tak otrzymany przewód jest potem ogrzewany do temperatury reakcji (923 K), aby umożliwić dyfuzję atomów Sn i ich reakcję z atomami Nb, tworząc nadprzewodnik Nb 3 Sn. chłodzi się do temperatury pokojowej, i kolejno do jego temperatury pracy 4,2 K w reaktorze, w otoczeniu ciekłego helu. W tym przykładzie numerycznym zastosowano metodę GSCL obliczenia termicznych i mechanicznych właściwości efektywnych strefy wewnętrznej (poziom strukturalny mikro ) przewodu (osnowa z brązu i włókna Nb 3 Sn) w funkcji temperatury, przy uwzględnieniu zachowania sprężysto-plastycznego brązu i ewentualnym pęknięciu włókna (rys. 6.1). Dwa składniki kompozytu wzięte są pod uwagę: włóknista inkluzja z nadprzewodnika Nb 3 Sn i matryca z brązu. Inne elementy kompozytu, jak bariera zewnętrzna i miedź, która nie utworzyła stopu z pozostałymi metalami, zostały w tym przykładzie numerycznym pominięte. Zakładamy, że składniki znajdują się w stanie równowagi w temperaturze 923 K, bez naprężeń i bez odkształceń. W tej temperaturze kompozyt pozostaje przez kilka godzin, jest to wystarczający czas, aby ewentualne naprężenia rezydualne zrelaksowały się, zaś odkształcenia wprowadzone w procesie przeciągania zniknęły w wyniku zjawisk reologicznych, które w tej
161 ROZDZIAŁ 6. Uogólniona metoda autokoherentna w teorii homogenizacji jako problem odwrotny 163 temperaturze zachodzą w metalach. Istotne cechy termiczne materiałów składowych nie są łatwe do znalezienia w całym, potrzebnym zakresie temperatur. Większość danych wykorzystywanych w tym przykładzie zaczerpnięto z [133] Rozwiązanie numeryczne problemu wprost Rozpatrzmy podział obszaru Ω self na element skończone właściwe dla analizy zagadnienia osiowo-symetrycznego. Jak zwykle, przemieszczenia aproksymowane są wewnątrz elementów za pomocą funkcji kształtu zdefiniowanej dla każdego elementu wartościami przemieszczeń jego węzłów. C Sześcio-węzłowy element osiowo symetryczny Osiowo symetryczny element nieskończony D A Pierścień wewnętrzny pierścienie Pierścień zewnętrzny B z Od 1 to I-1 materiały kompozytu we właściwych proporcjach Materiał I r Rys Dyskretyzacja pasma, wyodrębnionego myślowo z obszaru przedstawionego schematycznie na rys. 6.6, przy użyciu osiowo symetrycznych elementów MES. Poniżej siatka wyjściowa i siatka odkształcona dyskretnego modelu numerycznego. Naprężenia są obliczane w punktach całkowania numerycznego wyrazów macierzy sztywności. Kolejne podobszary obszaru Ω self podzielone są na elementy skończone w ten sposób, że dla dwu cylindrów wewnętrznych (obszar centralny wypełniony materiałem nadprzewodnika Nb 3 Sn oraz drugi cylinder wypełniony brązem) przyjęto siatkę stosunkowo gęstą, zbudowaną z osiowo-symetrycznych elementów prostokątnych o sześciu węzłach. Trzy węzły przyjęto na brzegu
162 164 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień równoległym do osi r, zaś dwa węzły wzdłuż wysokości cylindra z (oś symetrii). Dwa stopnie swobody, przemieszczenie promieniowe i przemieszczenie pionowe, obliczane są węzłach elementów. Zewnętrzny obszar nieskończony jest podzielony na kilka, tylko sześciowęzłowych elementów prostokątnych, takich samych, jak dla pierścieni wewnętrznych. Od strony zewnętrznej obszar ten zamyka element nieskończony, zdefiniowany zgodnie z opisem klasycznym, wziętym z [207]. Ten podział na element przedstawiony jest schematycznie na rys z A B C Ω Nb3Sn r 1 A Ω Br Ω self C r 2 ϕ A B C P 1 Rys Obszar myślowo wyodrębniony z kompozytu, zgodnie ze schematem uogólnionej metody autokoherentnej. Obszar przecięcia walca i płaszczyzny modelu MES ograniczony jest dwoma przekrojami wyodrębniający fragment pomiędzy dwoma pęknięciami. Warunki brzegowe określone są następująco: wzdłuż odcinka AB wszystkie stopnie swobody elementów są wolne. Wektor naprężenia na powierzchni AB jest zerowy. Wzdłuż krawędzi BC przemieszczenie w kierunku osi z jest zablokowanie, podczas gdy w kierunku promieniowym przemieszczenie jest swobodne. Wzdłuż brzegu dolnego, oznaczonego symbolem A C przemieszczenie w kierunku z jest zadane, zaś przemieszczenie w kierunku promieniowym jest nieskrępowane. Przemieszczenie radialne jest zablokowane również na całym odcinku pionowym, oznaczonym symbolem AA.
163 ROZDZIAŁ 6. Uogólniona metoda autokoherentna w teorii homogenizacji jako problem odwrotny A z Ω Nb3Sn A B Ω Br Vertical displacement blocked Ω self C C P 1 r 1 r2 L Rys Jednorodne testujące obciążenie kinematyczne, zadane wzdłuż boku A C oraz więzy dla schematu obliczeniowego, przyjętego dla zagadnienia wprost. Linia pogrubiona wzdłuż odcinka AB symbolizuje przecięcie powierzchni pęknięcia nadprzewodnika z płaszczyzną modelu obliczeniowego. Powierzchnia ta jest wolna od obciążeń (wektor naprężenia jest to przyjęty jako zadany wektor zerowy). Mając w pamięci fakt, że wartość funkcjonału F jest zależna od parametrów, którymi są wartości efektywnych charakterystyk materiału E eff = {E, ν, E z,ν z, β, β z }, w obliczeniach traktujemy charakterystyki efektywne jako niewiadome, jednak wybór wartości próbnych tych parametrów jest bardzo ważny dla szybkości obliczeń. Aby uprościć obliczenia, oznaczamy elementy uporządkowanego zbioru efektywnych parametrów materiałowych pojawiających się w równaniu (6.18) przez pojedynczy symbol p z indeksem with przyjmującym wartości ze zbioru od 1 do 6. Obliczamy składowe gradientu G określone równaniem (6.16) numerycznie, jako różnicę centralną, zgodnie ze wzorem: 1 ( ) ( (, + ) (, + )) G j p i F p k p j dp j F p k p j dp j (6.20) 2dp j Stosunkowo łatwo jest dobrać przyrost wartości p j. W rozpatrywanym przypadku, wartości efektywnych parametrów materiałowych zawierają się pomiędzy maksymalną a minimalną wartością odpowiedniego parametru materiałowego dla składników kompozytu. Nie musi tak być zawsze, dla dowolnego kompozytu, jednak w tym przypadku można założyć takie uproszczenie:
164 166 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień ( ) dp = max p min p / N (6.21) j j j k = 1..I k = 1..I gdzie k oznacza numer materiału jednorodnego w kompozycie, zaś N jest wybranym, dużym podzielnikiem. Posługując się metodą prób i błędów, wobec dość łagodnego i monotonicznego zachowania się funkcjonału F, w przeprowadzonych obliczeniach przyjęto N = 50. Należy również zauważyć, że dla zagadnienia poszukiwania charakterystyk efektywnych kompozytu, sytuacja, w której górna i dolna granica wartości efektywnej może być łatwo oszacowana jest bardzo sprzyjająca obliczeniom z użyciem sztucznych sieci neuronowych, gdyż obszar, z którego pobieramy próbki uczące może być właściwie ograniczony. Pozwoli to wybrać reprezentatywny zbiór wartości próbnych. Program obliczeń może być zrealizowany w kilku kolejnych krokach: Rozwiązanie problemu wprost dla przyjętego losowo zbioru wartości próbnych efektywnych parametrów materiałowych E eff = {E,ν, E z,ν z, β, β z } pomniejszonych o przyrosty dp. Rozwiązanie problemu wprost dla przyjętego losowo zbioru wartości próbnych efektywnych parametrów materiałowych powiększonych o przyrosty dp. Obliczenie składowych gradientu G. Trening sztucznej sieci neuronowej przy użyciu par uporządkowanych zbiorów: wektora gradientu G i obliczonego dla E eff i = {E, ν, E z,ν z, β, β z } i na wejściu sieci oraz użytych do tego obliczenia, próbnych wartości efektywnych E eff i = {E,ν, E z,ν z, β, β z } i na wyjściu sieci. Obliczenie właściwych wartości parametrów efektywnych {E, ν, E z, ν z, β, β z } hom jako wynik działania sztucznej sieci neuronowej pracującej w trybie przypomnienia, z wartościami składowych gradientu równymi zeru na wejściu sieci. W przykładzie ilustrującym wzięto pod uwagę 11 punktów na osi temperatury, obliczono 30 przykładów uczących dla każdej temperatury. Obliczenia przeprowadzono dla przyjętego średniego odstępu pomiędzy pęknięciami kruchego materiału nadprzewodzącego, równego 50 µm. Odpowiada to długości odcinka AA na rys Odpowiada to jednej z przykładowych sytuacji zaobserwowanych podczas analizy rzeczywistych wiązek nadprzewodzących. Należy podkreślić, że pęknięcie nadprzewodnika przyjęto jako istniejące wcześniej, przyjmujemy, że pojawiło się na pewnym etapie rozwoju obciążenia.
165 ROZDZIAŁ 6. Uogólniona metoda autokoherentna w teorii homogenizacji jako problem odwrotny 167 a. b. Rys Moduły Younga dla składników kompozytu: Nb 3 Sn i brązu oraz efektywny moduł Younga jako funkcja temperatury. Wartości obliczone zgodnie z proponowanym algorytmem obliczeniowym porównane są z wynikami opublikowanymi w artykule [13], otrzymanymi metodą największego spadku. Wykres górny wykonano dla przypadku, gdy pęknięcie miało miejsce w temperaturze 800 K. Wykres dolny przedstawia przypadek, przy założeniu, że pęknięcie wystąpiło w temperaturze 800 K.
4 Zastosowanie metody aproksymacji relacji odwrotnej do rozwiązywania wybranych zagadnień
Spis treści ROZDZIAŁ 1. Wstęp... 5 1.1. Przegląd literatury związanej z formułowaniem i rozwiązaniem problemu odwrotnego... 9 1.2. Prosty przykład ilustrujący zalety zastosowania metody aproksymacji relacji
Z52: Algebra liniowa Zagadnienie: Zastosowania algebry liniowej Zadanie: Operatory różniczkowania, zagadnienie brzegowe.
Z5: Algebra liniowa Zagadnienie: Zastosowania algebry liniowej Zadanie: Operatory różniczkowania zagadnienie brzegowe Dyskretne operatory różniczkowania Numeryczne obliczanie pochodnych oraz rozwiązywanie
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów
Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa Diagnostyka i niezawodność robotów Laboratorium nr 6 Model matematyczny elementu naprawialnego Prowadzący: mgr inż. Marcel Luzar Cele ćwiczenia:
Sztuczna Inteligencja Tematy projektów Sieci Neuronowe
PB, 2009 2010 Sztuczna Inteligencja Tematy projektów Sieci Neuronowe Projekt 1 Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia
METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH
METODY ROZWIĄZYWANIA RÓWNAŃ NIELINIOWYCH Jednym z zastosowań metod numerycznych jest wyznaczenie pierwiastka lub pierwiastków równania nieliniowego. W tym celu stosuje się szereg metod obliczeniowych np:
01, 02, 03 i kolejne numer efektu kształcenia. Załącznik 1 i 2
Efekty kształcenia dla kierunku studiów Studia Przyrodnicze i Technologiczne (z językiem wykładowym angielskim) - studia I stopnia, stacjonarne, profil ogólnoakademicki - i ich odniesienia do efektów kształcenia
Podstawy Sztucznej Inteligencji (PSZT)
Podstawy Sztucznej Inteligencji (PSZT) Paweł Wawrzyński Uczenie maszynowe Sztuczne sieci neuronowe Plan na dziś Uczenie maszynowe Problem aproksymacji funkcji Sieci neuronowe PSZT, zima 2013, wykład 12
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań
TABELA ODNIESIEŃ EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA PROGRAMU KSZTAŁCENIA DO EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA OBSZARU KSZTAŁCENIA I PROFILU STUDIÓW PROGRAM KSZTAŁCENIA: POZIOM KSZTAŁCENIA: PROFIL KSZTAŁCENIA:
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta
Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta www.michalbereta.pl Sieci radialne zawsze posiadają jedną warstwę ukrytą, która składa się z neuronów radialnych. Warstwa wyjściowa składa
Programowanie celowe #1
Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Ćwiczenia nr 7. TEMATYKA: Krzywe Bézier a
TEMATYKA: Krzywe Bézier a Ćwiczenia nr 7 DEFINICJE: Interpolacja: przybliżanie funkcji za pomocą innej funkcji, zwykle wielomianu, tak aby były sobie równe w zadanych punktach. Poniżej przykład interpolacji
Recenzja rozprawy doktorskiej mgr inż. Joanny Wróbel
Prof. dr hab. inż. Tadeusz BURCZYŃSKI, czł. koresp. PAN Instytut Podstawowych Problemów Techniki PAN ul. A. Pawińskiego 5B 02-106 Warszawa e-mail: tburczynski@ippt.pan.pl Warszawa, 15.09.2017 Recenzja
Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.
Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy
Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)
Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Funkcja uwikłana (równanie nieliniowe) jest to funkcja, która nie jest przedstawiona jawnym przepisem, wzorem wyrażającym zależność wartości
13. Równania różniczkowe - portrety fazowe
13. Równania różniczkowe - portrety fazowe Grzegorz Kosiorowski Uniwersytet Ekonomiczny w Krakowie rzegorz Kosiorowski (Uniwersytet Ekonomiczny 13. wrównania Krakowie) różniczkowe - portrety fazowe 1 /
Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE
Temat: Sztuczne Sieci Neuronowe Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE Dr inż. Barbara Mrzygłód KISiM, WIMiIP, AGH mrzyglod@ agh.edu.pl 1 Wprowadzenie Sztuczne sieci neuronowe
LABORATORIUM Z FIZYKI
LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI I PRACOWNIA FIZYCZNA C w Gliwicach Gliwice, ul. Konarskiego 22, pokoje 52-54 Regulamin pracowni i organizacja zajęć Sprawozdanie (strona tytułowa, karta pomiarowa)
Zastosowania sieci neuronowych
Zastosowania sieci neuronowych aproksymacja LABORKA Piotr Ciskowski zadanie 1. aproksymacja funkcji odległość punktów źródło: Żurada i in. Sztuczne sieci neuronowe, przykład 4.4, str. 137 Naucz sieć taką
Uczenie sieci typu MLP
Uczenie sieci typu MLP Przypomnienie budowa sieci typu MLP Przypomnienie budowy neuronu Neuron ze skokową funkcją aktywacji jest zły!!! Powszechnie stosuje -> modele z sigmoidalną funkcją aktywacji - współczynnik
Zajęcia wprowadzające W-1 termin I temat: Sposób zapisu wyników pomiarów
wielkość mierzona wartość wielkości jednostka miary pomiar wzorce miary wynik pomiaru niedokładność pomiaru Zajęcia wprowadzające W-1 termin I temat: Sposób zapisu wyników pomiarów 1. Pojęcia podstawowe
Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego
Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Dorota Witkowska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Wprowadzenie Sztuczne
Ćw. nr 31. Wahadło fizyczne o regulowanej płaszczyźnie drgań - w.2
1 z 6 Zespół Dydaktyki Fizyki ITiE Politechniki Koszalińskiej Ćw. nr 3 Wahadło fizyczne o regulowanej płaszczyźnie drgań - w.2 Cel ćwiczenia Pomiar okresu wahań wahadła z wykorzystaniem bramki optycznej
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
ruchem kolejowym przydatną w rozwiązywaniu złożonych zadań.
Efekty uczenia się (poprzednio: efekty ) dla studiów drugiego stopnia profil ogólnoakademicki na kierunku Budowa i Eksploatacja nfrastruktury Transportu Szynowego Wydział nżynierii Lądowej i Wydział Transportu
8. Neuron z ciągłą funkcją aktywacji.
8. Neuron z ciągłą funkcją aktywacji. W tym ćwiczeniu zapoznamy się z modelem sztucznego neuronu oraz przykładem jego wykorzystania do rozwiązywanie prostego zadania klasyfikacji. Neuron biologiczny i
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych
inż. Marek Duczkowski Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych słowa kluczowe: algorytm gradientowy, optymalizacja, określanie wodnicy W artykule
KIERUNKOWE EFEKTY KSZTAŁCENIA
WYDZIAŁ INFORMATYKI I ZARZĄDZANIA Kierunek studiów: INFORMATYKA Stopień studiów: STUDIA II STOPNIA Obszar Wiedzy/Kształcenia: OBSZAR NAUK TECHNICZNYCH Obszar nauki: DZIEDZINA NAUK TECHNICZNYCH Dyscyplina
Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych
Pochodna i różniczka unkcji oraz jej zastosowanie do obliczania niepewności pomiarowych Krzyszto Rębilas DEFINICJA POCHODNEJ Pochodna unkcji () w punkcie określona jest jako granica: lim 0 Oznaczamy ją
Elementy rachunku różniczkowego i całkowego
Elementy rachunku różniczkowego i całkowego W paragrafie tym podane zostaną elementarne wiadomości na temat rachunku różniczkowego i całkowego oraz przykłady jego zastosowania w fizyce. Małymi literami
Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.
Wstęp do teorii sztucznej inteligencji Wykład III Modele sieci neuronowych. 1 Perceptron model najprostzszy przypomnienie Schemat neuronu opracowany przez McCullocha i Pittsa w 1943 roku. Przykład funkcji
Definicje i przykłady
Rozdział 1 Definicje i przykłady 1.1 Definicja równania różniczkowego 1.1 DEFINICJA. Równaniem różniczkowym zwyczajnym rzędu n nazywamy równanie F (t, x, ẋ, ẍ,..., x (n) ) = 0. (1.1) W równaniu tym t jest
Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński
Wstęp do teorii niepewności pomiaru Danuta J. Michczyńska Adam Michczyński Podstawowe informacje: Strona Politechniki Śląskiej: www.polsl.pl Instytut Fizyki / strona własna Instytutu / Dydaktyka / I Pracownia
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka
Modelowanie jako sposób opisu rzeczywistości Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka 2015 Wprowadzenie: Modelowanie i symulacja PROBLEM: Podstawowy problem z opisem otaczającej
17. 17. Modele materiałów
7. MODELE MATERIAŁÓW 7. 7. Modele materiałów 7.. Wprowadzenie Podstawowym modelem w mechanice jest model ośrodka ciągłego. Przyjmuje się, że materia wypełnia przestrzeń w sposób ciągły. Możliwe jest wyznaczenie
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Funkcje dwóch zmiennych
Funkcje dwóch zmiennych Andrzej Musielak Str Funkcje dwóch zmiennych Wstęp Funkcja rzeczywista dwóch zmiennych to funkcja, której argumentem jest para liczb rzeczywistych, a wartością liczba rzeczywista.
a) Szczegółowe efekty kształcenia i ich odniesienie do opisu efektów kształcenia dla obszaru nauk społecznych, technicznych i inżynierskich
1. PROGRAM KSZTAŁCENIA 1) OPIS EFEKTÓW KSZTAŁCENIA a) Szczegółowe efekty i ich odniesienie do opisu dla obszaru nauk społecznych, technicznych i inżynierskich Objaśnienie oznaczeń: I efekty kierunkowe
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ
IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ Celem ćwiczenia jest zapoznanie się ze sposobem działania sieci neuronowych typu MLP (multi-layer perceptron) uczonych nadzorowaną (z nauczycielem,
Efekty kształcenia dla makrokierunku: INFORMATYKA STOSOWANA Z KOMPUTEROWĄ NAUKĄ O MATERIAŁACH Wydział: MECHANICZNY TECHNOLOGICZNY
Efekty kształcenia dla makrokierunku: INFORMATYKA STOSOWANA Z KOMPUTEROWĄ NAUKĄ O MATERIAŁACH Wydział: MECHANICZNY TECHNOLOGICZNY nazwa kierunku studiów: Makrokierunek: Informatyka stosowana z komputerową
FUNKCJA LINIOWA - WYKRES
FUNKCJA LINIOWA - WYKRES Wzór funkcji liniowej (Postać kierunkowa) Funkcja liniowa jest podstawowym typem funkcji. Jest to funkcja o wzorze: y = ax + b a i b to współczynniki funkcji, które mają wartości
ROZKŁAD MATERIAŁU NAUCZANIA KLASA 1, ZAKRES PODSTAWOWY
ROZKŁAD MATERIAŁU NAUCZANIA KLASA 1, ZAKRES PODSTAWOWY Numer lekcji 1 2 Nazwa działu Lekcja organizacyjna. Zapoznanie z programem nauczania i kryteriami wymagań Zbiór liczb rzeczywistych i jego 3 Zbiór
Metody numeryczne. materiały do wykładu dla studentów. 7. Całkowanie numeryczne
Metody numeryczne materiały do wykładu dla studentów 7. Całkowanie numeryczne 7.1. Całkowanie numeryczne 7.2. Metoda trapezów 7.3. Metoda Simpsona 7.4. Metoda 3/8 Newtona 7.5. Ogólna postać wzorów kwadratur
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
- prędkość masy wynikająca z innych procesów, np. adwekcji, naprężeń itd.
4. Równania dyfuzji 4.1. Prawo zachowania masy cd. Równanie dyfuzji jest prostą konsekwencją prawa zachowania masy, a właściwie to jest to prawo zachowania masy zapisane dla procesu dyfuzji i uwzględniające
WYKŁAD 9 METODY ZMIENNEJ METRYKI
WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać
Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
INTERPOLACJA I APROKSYMACJA FUNKCJI
Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Wprowadzenie Na czym polega interpolacja? Interpolacja polega
DRGANIA SWOBODNE UKŁADU O DWÓCH STOPNIACH SWOBODY. Rys Model układu
Ćwiczenie 7 DRGANIA SWOBODNE UKŁADU O DWÓCH STOPNIACH SWOBODY. Cel ćwiczenia Doświadczalne wyznaczenie częstości drgań własnych układu o dwóch stopniach swobody, pokazanie postaci drgań odpowiadających
Próbny egzamin z matematyki dla uczniów klas II LO i III Technikum. w roku szkolnym 2012/2013
Próbny egzamin z matematyki dla uczniów klas II LO i III Technikum w roku szkolnym 2012/2013 I. Zakres materiału do próbnego egzaminu maturalnego z matematyki: 1) liczby rzeczywiste 2) wyrażenia algebraiczne
Informatyka. II stopień. Ogólnoakademicki. Stacjonarne/Niestacjonarne. Kierunkowy efekt kształcenia - opis WIEDZA
Załącznik nr 6 do uchwały nr 509 Senatu Uniwersytetu Zielonogórskiego z dnia 25 kwietnia 2012 r. w sprawie określenia efektów kształcenia dla kierunków studiów pierwszego i drugiego stopnia prowadzonych
Drgania poprzeczne belki numeryczna analiza modalna za pomocą Metody Elementów Skończonych dr inż. Piotr Lichota mgr inż.
Drgania poprzeczne belki numeryczna analiza modalna za pomocą Metody Elementów Skończonych dr inż. Piotr Lichota mgr inż. Joanna Szulczyk Politechnika Warszawska Instytut Techniki Lotniczej i Mechaniki
II Liceum Ogólnokształcące im. Ks. Prof. Józefa Tischnera W Wodzisławiu Śl. WYMAGANIA EDUKACYJNE FIZYKA
II Liceum Ogólnokształcące im. Ks. Prof. Józefa Tischnera W Wodzisławiu Śl. WYMAGANIA EDUKACYJNE FIZYKA Opracował: Tadeusz Winkler Obowiązuje od 1 września 2018r. 1 Narzędzia i częstotliwość pomiaru dydaktycznego
Obliczenia iteracyjne
Lekcja Strona z Obliczenia iteracyjne Zmienne iteracyjne (wyliczeniowe) Obliczenia iteracyjne wymagają zdefiniowania specjalnej zmiennej nazywanej iteracyjną lub wyliczeniową. Zmienną iteracyjną od zwykłej
Funkcje liniowe i wieloliniowe w praktyce szkolnej. Opracowanie : mgr inż. Renata Rzepińska
Funkcje liniowe i wieloliniowe w praktyce szkolnej Opracowanie : mgr inż. Renata Rzepińska . Wprowadzenie pojęcia funkcji liniowej w nauczaniu matematyki w gimnazjum. W programie nauczania matematyki w
zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych
Grupa efektów kierunkowych: Matematyka stosowana I stopnia - profil praktyczny (od 17 października 2014) Matematyka Stosowana I stopień spec. Matematyka nowoczesnych technologii stacjonarne 2015/2016Z
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
składa się z m + 1 uporządkowanych niemalejąco liczb nieujemnych. Pomiędzy p, n i m zachodzi następująca zależność:
TEMATYKA: Krzywe typu Splajn (Krzywe B sklejane) Ćwiczenia nr 8 Krzywe Bezier a mają istotne ograniczenie. Aby uzyskać kształt zawierający wiele punktów przegięcia niezbędna jest krzywa wysokiego stopnia.
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Tabela odniesień efektów kierunkowych do efektów obszarowych (tabele odniesień efektów kształcenia)
Załącznik nr 7 do uchwały nr 514 Senatu Uniwersytetu Zielonogórskiego z dnia 25 kwietnia 2012 r. w sprawie określenia efektów kształcenia dla kierunków studiów pierwszego i drugiego stopnia prowadzonych
WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI
WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI Stefan WÓJTOWICZ, Katarzyna BIERNAT ZAKŁAD METROLOGII I BADAŃ NIENISZCZĄCYCH INSTYTUT ELEKTROTECHNIKI ul. Pożaryskiego 8, 04-703 Warszawa tel. (0)
Prognoza terminu sadzenia rozsady sałaty w uprawach szklarniowych. Janusz Górczyński, Jolanta Kobryń, Wojciech Zieliński
Prognoza terminu sadzenia rozsady sałaty w uprawach szklarniowych Janusz Górczyński, Jolanta Kobryń, Wojciech Zieliński Streszczenie. W uprawach szklarniowych sałaty pojawia się następujący problem: kiedy
Zajęcia nr. 3 notatki
Zajęcia nr. 3 notatki 22 kwietnia 2005 1 Funkcje liczbowe wprowadzenie Istnieje nieskończenie wiele funkcji w matematyce. W dodaktu nie wszystkie są liczbowe. Rozpatruje się funkcje które pobierają argumenty
KIERUNKOWE EFEKTY KSZTAŁCENIA
KIERUNKOWE EFEKTY KSZTAŁCENIA Wydział: Matematyki Kierunek studiów: Matematyka i Statystyka (MiS) Studia w j. polskim Stopień studiów: Pierwszy (1) Profil: Ogólnoakademicki (A) Umiejscowienie kierunku
INSTRUKCJA DO ĆWICZENIA NR 1
L01 ---2014/10/17 ---10:52---page1---#1 KATEDRA MECHANIKI STOSOWANEJ Wydział Mechaniczny POLITECHNIKA LUBELSKA INSTRUKCJA DO ĆWICZENIA NR 1 PRZEDMIOT TEMAT Wybrane zagadnienia z optymalizacji elementów
Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe
Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe Trening jednokierunkowych sieci neuronowych wykład 2. dr inż. PawełŻwan Katedra Systemów Multimedialnych Politechnika Gdańska
1. Tabela odniesień efektów kierunkowych do efektów obszarowych z komentarzami
EFEKTY KSZTAŁCENIA (ELEKTROTECHNIKA II ST) 1. Tabela odniesień efektów kierunkowych do efektów obszarowych z komentarzami Kierunkowy efekt kształcenia - symbol K_W01 K_W02 K_W03 K_W04 K_W05 K_W06 K_W07
istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy
MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze
Kształcenie w zakresie podstawowym. Klasa 2
Kształcenie w zakresie podstawowym. Klasa 2 Poniżej podajemy umiejętności, jakie powinien zdobyć uczeń z każdego działu, aby uzyskać poszczególne stopnie. Na ocenę dopuszczającą uczeń powinien opanować
Rys Wykres kosztów skrócenia pojedynczej czynności. k 2. Δk 2. k 1 pp. Δk 1 T M T B T A
Ostatnim elementem przykładu jest określenie związku pomiędzy czasem trwania robót na planowanym obiekcie a kosztem jego wykonania. Związek ten określa wzrost kosztów wykonania realizacji całego przedsięwzięcia
KIERUNKOWE EFEKTY KSZTAŁCENIA
KIERUNKOWE EFEKTY KSZTAŁCENIA WYDZIAŁ INFORMATYKI I ZARZĄDZANIA Kierunek studiów: INFORMATYKA Stopień studiów: STUDIA II STOPNIA Obszar Wiedzy/Kształcenia: OBSZAR NAUK TECHNICZNYCH Obszar nauki: DZIEDZINA
VII. Elementy teorii stabilności. Funkcja Lapunowa. 1. Stabilność w sensie Lapunowa.
VII. Elementy teorii stabilności. Funkcja Lapunowa. 1. Stabilność w sensie Lapunowa. W rozdziale tym zajmiemy się dokładniej badaniem stabilności rozwiązań równania różniczkowego. Pojęcie stabilności w
Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)
Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne) Przygotował: Dr inż. Wojciech Artichowicz Katedra Hydrotechniki PG Zima 2014/15 1 TABLICE ROZKŁADÓW... 3 ROZKŁAD
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)
SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU) 1. Opis problemu - ocena końcowa projektu Projekt jako nowe, nietypowe przedsięwzięcie wymaga właściwego zarządzania. Podjęcie się realizacji
0 + 0 = 0, = 1, = 1, = 0.
5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,
UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH
Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać układu równań liniowych Układ liniowych równań algebraicznych
Rozwiązywanie równań nieliniowych
Rozwiązywanie równań nieliniowych Marcin Orchel 1 Wstęp Przykłady wyznaczania miejsc zerowych funkcji f : f(ξ) = 0. Wyszukiwanie miejsc zerowych wielomianu n-tego stopnia. Wymiar tej przestrzeni wektorowej
1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda
Sieci neuropodobne 1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN Agenda Trochę neurobiologii System nerwowy w organizmach żywych tworzą trzy
Efekty kształcenia Dla kierunku Inżynieria Bezpieczeństwa
Efekty kształcenia Dla kierunku Inżynieria Bezpieczeństwa, studia II stopnia profil ogólnoakademicki Specjalność studiowania Gospodarka Wodna i Zagrożenia Powodziowe Umiejscowienie kierunku w obszarze
Efekty kształcenia na kierunku AiR drugiego stopnia - Wiedza Wydziału Elektrotechniki, Automatyki i Informatyki Politechniki Opolskiej
Efekty na kierunku AiR drugiego stopnia - Wiedza K_W01 K_W02 K_W03 K_W04 K_W05 K_W06 K_W07 K_W08 K_W09 K_W10 K_W11 K_W12 K_W13 K_W14 Ma rozszerzoną wiedzę dotyczącą dynamicznych modeli dyskretnych stosowanych
5. Rozwiązywanie układów równań liniowych
5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a
Metody Sztucznej Inteligencji II
17 marca 2013 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką, która jest w stanie odbierać i przekazywać sygnały elektryczne. Neuron działanie Jeżeli wartość sygnału
Elektrotechnika. II stopień. Ogólnoakademicki. Stacjonarne/Niestacjonarne. Kierunkowy efekt kształcenia - opis WIEDZA
Załącznik nr 5 do uchwały nr 509 Senatu Uniwersytetu Zielonogórskiego z dnia 25 kwietnia 2012 r. w sprawie określenia efektów dla kierunków studiów pierwszego i drugiego stopnia prowadzonych na Wydziale
1 Metody rozwiązywania równań nieliniowych. Postawienie problemu
1 Metody rozwiązywania równań nieliniowych. Postawienie problemu Dla danej funkcji ciągłej f znaleźć wartości x, dla których f(x) = 0. (1) 2 Przedział izolacji pierwiastka Będziemy zakładać, że równanie
Recenzja rozprawy doktorskiej mgra inż. Roberta Szymczyka. Analiza numeryczna zjawisk hartowania stali narzędziowych do pracy na gorąco
Prof. dr hab. inż. Tadeusz BURCZYŃSKI, czł. koresp. PAN Instytut Podstawowych Problemów Techniki PAN ul. A. Pawińskiego 5B 02-106 Warszawa e-mail: tburczynski@ippt.pan.pl Warszawa, 20.09.2016 Recenzja
Wyznaczanie przyspieszenia ziemskiego za pomocą wahadła prostego
Ćwiczenie M6 Wyznaczanie przyspieszenia ziemskiego za pomocą wahadła prostego M6.1. Cel ćwiczenia Celem ćwiczenia jest wyznaczenie przyspieszenia ziemskiego poprzez analizę ruchu wahadła prostego. M6..
Inżynierskie metody analizy numerycznej i planowanie eksperymentu / Ireneusz Czajka, Andrzej Gołaś. Kraków, Spis treści
Inżynierskie metody analizy numerycznej i planowanie eksperymentu / Ireneusz Czajka, Andrzej Gołaś. Kraków, 2017 Spis treści Od autorów 11 I. Klasyczne metody numeryczne Rozdział 1. Na początek 15 1.1.
BADANIE DRGAŃ TŁUMIONYCH WAHADŁA FIZYCZNEGO
ĆWICZENIE 36 BADANIE DRGAŃ TŁUMIONYCH WAHADŁA FIZYCZNEGO Cel ćwiczenia: Wyznaczenie podstawowych parametrów drgań tłumionych: okresu (T), częstotliwości (f), częstotliwości kołowej (ω), współczynnika tłumienia
Rozkład Gaussa i test χ2
Rozkład Gaussa jest scharakteryzowany dwoma parametramiwartością oczekiwaną rozkładu μ oraz dyspersją σ: METODA 2 (dokładna) polega na zmianie zmiennych i na obliczeniu pk jako różnicy całek ze standaryzowanego
WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III
WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III Program nauczania matematyki w gimnazjum Matematyka dla przyszłości DKW 4014 162/99 Opracowała: mgr Mariola Bagińska 1. Liczby i działania Podaje rozwinięcia
STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.
STRESZCZENIE rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. Zasadniczym czynnikiem stanowiącym motywację dla podjętych w pracy rozważań
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie
EFEKTY UCZENIA SIĘ DLA KIERUNKU INŻYNIERIA DANYCH W ODNIESIENIU DO EFEKTÓW UCZENIA SIĘ PRK POZIOM 6
EFEKTY UCZENIA SIĘ DLA KIERUNKU INŻYNIERIA DANYCH W ODNIESIENIU DO EFEKTÓW UCZENIA SIĘ PRK POZIOM 6 studia pierwszego stopnia o profilu ogólnoakademickim Symbol K_W01 Po ukończeniu studiów pierwszego stopnia
Wymagania edukacyjne z matematyki w klasie III gimnazjum
Wymagania edukacyjne z matematyki w klasie III gimnazjum - nie potrafi konstrukcyjnie podzielić odcinka - nie potrafi konstruować figur jednokładnych - nie zna pojęcia skali - nie rozpoznaje figur jednokładnych
KIERUNKOWE EFEKTY KSZTAŁCENIA DLA INŻYNIERII ŚRODOWISKA II STOPIEŃ
Załącznik nr 3 do Zarządzenia Rektora nr 10 /12 z dnia 21 lutego 2012r. KIERUNKOWE EFEKTY KSZTAŁCENIA DLA INŻYNIERII ŚRODOWISKA II STOPIEŃ Efekty kształcenia dla kierunku (IŚ) nazwa kierunku studiów: INŻYNIERIA
KIERUNKOWE EFEKTY KSZTAŁCENIA
Załącznik do Uchwały Senatu Politechniki Krakowskiej z dnia 28 czerwca 2017 r. nr 58/d/06/2017 Politechnika Krakowska im. Tadeusza Kościuszki w Krakowie Nazwa wydziału Wydział Inżynierii Środowiska Dziedzina
Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia
Doświadczenie: Ruch jednostajnie przyspieszony wyznaczenie przyspieszenia Cele doświadczenia Celem doświadczenia jest zbadanie zależności drogi przebytej w ruchu przyspieszonym od czasu dla kuli bilardowej