WOJCIECH GRUSZCZYŃSKI * ZASTOSOWANIE SIECI NEURONOWYCH DO PROGNOZOWANIA DEFORMACJI GÓRNICZYCH DLA NIECEK W STANIE ASYMPTOTYCZNYM ** 1. Wstęp Sieci neuronowe są systemami obliczeniowymi stosowanymi z powodzeniem w wielu różnych zagadnieniach związanych z klasyfikacją, prognozowaniem i sterowaniem (Tadeusiewicz 1998). Zostały one wykorzystane do rozwiązywania wielu złożonych zagadnień ze względu na ich zdolności adaptacyjne i odporność na szumy. Cechy te czynią z nich obiecujące narzędzie również do prognozowania deformacji górniczych wywołanych eksploatacją podziemną. 2. Sformułowanie problemu Dla prognozowania obniżeń konieczna jest normalizacja danych dotyczących niecek. Wykorzystano do tego celu dwa parametry. Pierwszy z nich to promień zasięgu wpływów głównych (r), który można opisać jako odległość poziomą, w granicach której eksploatacja ma wpływ na obniżenie punktów. Drugim parametrem jest maksymalne obniżenie (W max ), mogące się pojawić przy danym sposobie likwidacji pustki poeksploatacyjnej dla ustalonej grubości eksploatacji i przy nieskończonej powierzchni podlegającej wydobyciu. Prognozowanie obniżeń (w), wymaga przekazania do sieci informacji o kształcie i rozmiarach eksploatacji wokół punktu. W tym celu obszar w odległości r wokół analizowanego punktu podzielono na 400 (20x20) kwadratów (rys. 1). Każdemu z nich przypisano atrybut, którego wartością był ułamek powierzchni danego kwadratu, podlegający eksploatacji. Modelowaną wartością był ułamek W max. Pojedynczy przykład uczący składał się z danych i obserwacji dotyczących jednego punktu. * Akademia Górniczo- Hutnicza, Katedra Geodezji Górniczej ** Artykuł napisano w ramach badań statutowych Katedry Geodezji Górniczej w roku 2005
Rys. 1. Podział obszaru wokół analizowanego punktu na kwadraty elementarne Przedstawiony sposób przekazywania danych o eksploatacji ogranicza zbiór uczący do przykładów, dla których wartości r i W max są w danym przykładzie w przybliżeniu stałe. Przykłady w ciągach uczących zostały podzielone na trzy grupy: treningową służącą do wytrenowania sieci, weryfikacyjną pomagającą zatrzymać proces uczenia w odpowiednim momencie, oraz testową wykorzystaną do ostatecznego sprawdzenia sieci. Dla uniezależnienia od lokalnego układu odniesienia (kierunku osi) i powiększenia zasobów przykładów uczących zdecydowano o powieleniu każdego z przykładów na drodze 36-krotnego obrotu układu wokół analizowanego punktu. Obrót wykonywano o stały kąt tak, aby żaden z kierunków nie był bardziej wyeksponowany od innych. W przypadku obniżeń dla redukcji danych wejściowych zastosowano analizę składowych głównych (Kemsley 1995). Pozwoliła ona na znaczącą redukcję danych wejściowych (z 400 do 10 30) przy niewielkiej utracie przenoszonej przez nie informacji (5 20%). Tak przygotowane dane stanowiły podstawę do nauki sieci i oceny jej późniejszej przydatności do prognozowania obniżeń. Znajomość prognozowanych obniżeń pozwoliła na bezpośrednie obliczenie prognozowanych nachyleń i krzywizn. W dalszym postępowaniu skoncentrowano się na wykorzystaniu sieci neuronowych do prognozowania odkształceń poziomych, rozumianych jako zmiany długości poziomych odcinków pomiarowych. Wykorzystano do tego celu obliczone krzywizny i zależność pomiędzy nimi a odkształceniami. W tym zagadnieniu pojedynczy przykład w ciągu uczącym składał się z: iloczynu krzywizny obliczonej na podstawie prognozowanych obniżeń trzech sąsiednich punktów i promienia zasięgu wpływów głównych dla tego przykładu (dana) oraz średniego odkształcenia zaobserwowanego na tych odcinkach (prawidłowa odpowiedź). Przy wyborze najlepszej sieci do prognozowania danego zagadnienia kierowano się dokładnościami prognoz dla grupy weryfikacyjnej. Analizowano zachowanie wielu rodzajów sieci neuronowych o różnych rozmiarach, w tym: liniowych, MLP, RBF, GRNN (Tadeusiewicz 1998, Masters 1996, Rutkowska et al. 1997, Żurada et al. 1996) i MDN (Bishop 1994, 1996). Ta ostatnia pozwoliła na zbadanie warunkowego rozkładu gęstości
prawdopodobieństwa zmiennej wyjściowej (uwarunkowanego danymi wejściowymi). Pozwoliło to na ocenę dokładności prognozy przez indywidualne wyznaczenie odchylenie standardowego prognozowanego wskaźnika dla każdego punktu, a także na wykrycie skośności i innych cech rozkładu w danych i/lub samym zjawisku. Do symulacji działania sieci neuronowych wykorzystano program MATLAB 7.0 z biblioteką NetLab (w przypadku sieci MDN), oraz program Statistica Neural Networks (pozostałe sieci). 3. Prognozowanie deformacji Dla obniżeń ciąg danych wykorzystanych do badania zbudowany został z 526 punktów (dla treningu ~78%, dla weryfikacji ~11%, dla testu ~11%), co po obrotach układu współrzędnych dało łącznie 18936 przykładów. Wiele sieci uzyskiwało porównywalne dokładności modelowania. Najdokładniej (rys. 3) dla zbioru weryfikacyjnego modelowanie wykonała sieć MLP o budowie 23:5:1; uzyskała ona błąd RMS dla zbioru treningowego ~5.8% W max, weryfikacyjnego ~4%, a dla linii testowej ~6.1%. Spośród pozostałych sieci dobre wyniki uzyskała sieć GRNN (błędy wynosiły odpowiednio ~3.5% dla treningu, ~5.4% dla weryfikacji, ~4.6% dla testu). Najciekawsze rezultaty uzyskano z zastosowaniem sieci MDN (rys. 2). Jak już wspomniano wcześniej, pozwoliła ona na ocenę warunkowego rozkładu modelowanego obniżenia. Ma to istotne znaczenie przy wykonywaniu prognoz, szczególnie dla wskaźników, przy których wielkość rozproszenia losowego jest znaczna, takich jak np. względne wydłużenie/skrócenie odcinka pomiarowego.
Rys. 2. Prognoza obniżeń dla zbioru testowego przy zastosowaniu sieci MDN 23:5:1:1 Ciąg danych wykorzystany do modelowania odkształceń składał się z 413 przykładów (~72% dla treningu, ~14% dla weryfikacji, ~14% dla testu). Dokładność uzyskiwanych prognoz była podobna we wszystkich zastosowanych sieciach: dla zbioru treningowego była ona rzędu ~2.4 mm/m, weryfikacyjnego ~0.5 mm/m, testowego ~1.1 mm/m. Przy modelowaniu odkształceń odchylenie standardowe ma większe znaczenie niż dla obniżeń. Wartość prognozowana wskaźnika jest jego wartością oczekiwaną. Niejednokrotnie wartość jego odchylenia standardowego jest jej równa bądź większa. Z tej perspektywy niezwykle korzystnie prezentują się sieci MDN (rys. 3). Przykład testowy jest wyjątkowo regularny; nie jest to jednak normą w przypadku odkształceń. Biorąc pod uwagę niewielkie rozmiary zbioru uczącego i nieregularność zjawiska uzyskane rezultaty należy uznać za obiecujące (odcinki pomiarowe od 1 do 25). Oszacowanie odchylenia standardowego znacząco zwiększa wartość wyników prognozy.
Rys. 3. Prognoza odkształceń poziomych dla zbioru testowego z wykorzystaniem sieci MDN Problemy i niedokładności modelowania widoczne szczególnie w prawej części wykresu (rys.3, szczególnie odcinki pomiarowe od 26 do 34) wynikają z niedokładności modelowania krzywizn. Jak wspomniano w rozdziale 2. artykułu, modelowanie odkształceń oparto na ich zależności (proporcjonalności) do iloczynu krzywizny i promienia zasięgu wpływów głównych. Krzywizny natomiast modelowano pośrednio, tj. obliczając je na podstawie modelowanych obniżeń. W ten sposób względnie niewielkie błędy modelu obniżeń (rys. 2) przenoszą się na i potęgują w krzywiznach. Powstają pytania: czy da się i jak przezwyciężyć trudności w modelowaniu odkształceń? Odpowiedzi nasuwają się dwie: po pierwsze zwiększyć zbiór danych na podstawie którego budowany jest model, po drugie próbować budować modele, które bezpośrednio (tj. bez udziału krzywizn i innych modelowanych wskaźników) modelowałyby odkształcenia. Jeżeli chodzi o bezpośrednie modelowanie odkształceń autor poczynił pierwsze próby, nie przyniosły one jednak rezultatów lepszych niż zaprezentowane w artykule. Sedno problemu stanowi zakres i sposób przekazywanych do sieci informacji. Model powinien zachować możliwe jak największą prostotę i ogólność, np. powinien być możliwy do zastosowania niezależnie od kształtu eksploatacji. Konkretna odpowiedź na pytania, jaki powinien być zestaw danych wejściowych dla bezpośredniego
modelowania odkształceń i czy taki sposób postawienia problemu (bezpośrednie prognozowanie odkształceń) może przynieść korzystne rezultaty, pozostaje więc otwarta. Nie ulega wątpliwości natomiast, że pożądane jest wykorzystanie do budowy modelu narzędzia, które pozwoliłoby na modelowanie nie tylko wartości oczekiwanych wskaźników, ale także odchylenia standardowego. Sieci MDN spełniają ten wymóg, co więcej pozwalają na modelowanie nie tylko samego odchylenia standardowego, ale wręcz pełnego rozkładu (warunkowego) prawdopodobieństwa wskaźnika. Istnieją również inne narzędzia z zakresu sieci neuronowych (Dirk Husmeier 1997) o podobnych możliwościach. Dla lepszego zobrazowania charakteru wyników, jakie udostępniają sieci MDN, na rysunku 4 przedstawiono warunkowe rozkłady prawdopodobieństwa odkształceń w wybranych (regularnie rozmieszczonych) punktach. Na osi poziomej wykresów na rysunku 4 znajduje się wartość odkształcenia poziomego, zaś na osi pionowej gęstość prawdopodobieństwa. Na każdym z wykresów znajdują się trzy pionowe linie. Środkowa z nich oznacza wartość oczekiwaną wskaźnika, a linie zewnętrzne wartości średniej ±odchylenie standardowe. Rys. 4. Warunkowe rozkłady prawdopodobieństwa odkształceń w wybranych punktach Na uwagę zasługuje asymetria modelowanych rozkładów widoczna na większości zamieszczonych wykresów. Źródłem tej asymetrii może być skośność w danych wykorzystanych do budowy modelu, bądź też faktyczna skośność w zjawisku w zależności od tego, czy i w jakim stopniu model jest reprezentatywny dla zjawiska. Z kolei reprezentatywność modelu uzależniona jest w znacznym stopniu od reprezentatywności przykładów wykorzystanych do jego budowy, a także od zakresu danych wejściowych modelu. Ponieważ dane uczące stanowią pewną próbę losową, ich reprezentatywność zależy od ich liczby i poprawności pobrania próby. Duża liczebność próby pozwala na
budowę bardziej złożonych modeli, bowiem bardziej złożone nieliniowe modele wymagają dużej ilości danych. Dodatkowo, jeżeli model ma na celu prognozę nie tylko wartości oczekiwanej wskaźnika a warunkowego rozkładu jego wartości, jego złożoność rośnie. Z tego punktu widzenia staje się oczywiste, iż modele tego typu, które można uznać za narzędzia gwarantujące pełną informację o zjawisku, wymagają znacznej liczby danych uczących, aby wyniki uzyskane za ich pomocą można uznać za dostatecznie pewne. Jednak po zbudowaniu modelu w oparciu o wystarczająco liczną próbę losową jego możliwości są ogromne. Na podstawie takiego modelu można wyliczać dowolne statystyki dla prognozowanych wskaźników. Można też zaprezentować warunkowe rozkłady gęstości prawdopodobieństwa w wybranych punktach (rys. 4) lub wzdłuż linii obserwacyjnej, na przykład w postaci wykresu trójwymiarowego (rys. 5) albo warstwic. p(ε K*r) ε Numer odcinka pomiarowego Rys. 5. Rozkład gęstości warunkowego prawdopodobieństwa wartości odkształceń poziomych wzdłuż linii obserwacyjnej Podkreślenia warta jest jeszcze jedna cecha wykorzystanego narzędzia. Otóż sieci MDN potrafią modelować gęstości rozkładu warunkowego prawdopodobieństwa o dowolnym kształcie, w tym rozkłady wielomodalne. Cecha ta jest niezwykle cenna przy modelowaniu zadań odwrotnych tj. przyczyn na podstawie obserwowanych skutków. W takich zadaniach często mamy do czynienia z wspomnianymi rozkładami. Z takimi rozkładami modele prognozujące tylko wartość oczekiwaną, lub nawet również odchylenie standardowe, nie radzą sobie kompletnie - w przeciwieństwie do modeli pozwalających na prognozowanie pełnego rozkładu warunkowej gęstości prawdopodobieństwa.
4. Podsumowanie W artykule przedstawiono jedną z wielu możliwości zastosowania sieci neuronowych do prognozowania deformacji. Uzyskiwane dokładności modelowania, biorąc pod uwagę skromny zbiór uczący, wydają się satysfakcjonujące (błędy prognoz obniżeń w granicach 3-7% W max, błędy prognoz odkształceń 0.5-2.4 mm/m). Na uwagę zasługuje krótki czas uczenia sieci oraz ich małe rozmiary potrzebne do prawidłowego prognozowania. Niewątpliwie duże znaczenie przy prognozowaniu obniżeń miało zastosowanie analizy składowych głównych do redukcji danych, które pozwoliło w znaczącym stopniu ograniczyć liczbę wejść sieci, przy utracie niewielkiej porcji informacji. Z punktu widzenia użytkowego najciekawsze (choć nie zawsze najdokładniejsze) rezultaty uzyskano przy zastosowaniu sieci typu MDN. Umożliwiają one modelowanie i prognozę nie tylko wartości oczekiwanej, ale i warunkowego rozkładu gęstości prawdopodobieństwa danego wskaźnika (a więc również obliczenie odchylenia standardowego). Ma to zasadnicze znaczenie zwłaszcza dla wskaźników o dużym rozproszeniu losowym, takich jak odkształcenie poziome. Literatura Bishop Ch. M. 1994: Mixture Density Networks. Neural Computing Research Group Report: NCRG/94/004. Bishop Ch. M. 1996: Theoretical Foundations of Neural Networks.Kraków, Physics Computing. Gruszczyński W. 2004: Próba zastosowania sieci neuronowych do prognozowania obniżeń w nieckach pełnych wywołanych podziemną eksploatacją górniczą. Kraków, Zeszyty Naukowe AGH seria Geodezja. Hejmanowski R. 2001: Prognozowanie deformacji górotworu i powierzchni terenu na bazie uogólnionej teorii Knothego dla złóż surowców stałych, ciekłych i gazowych. Kraków, IGSMiE PAN. Husmeier Dirk 1997: Modelling Conditional Probability Densities with Neural Network. Praca doktorska wykonana na Wydziale Matematyki, King s College London, University of London. Kemsley E. K. 1995: Discriminant analysis of high-dimensional data: a comparision of principal components analysis and partial least squares data reduction methods. Norwich, Chemimetrics and Intelligent Laboratory Systems. Masters T. 1996: Sieci neuronowe w praktyce. Warszawa, Wydawnictwa Naukowo- Techniczne. Rutkowska D., Piliński M., Rutkowski L. 1997: Sieci neuronowe, algorytmy genetyczne i systemy rozmyte. Warszawa, Wydawnictwo Naukowe PWN. Tadeusiewicz R. 1998: Elementarne wprowadzenie do techniki sieci neuronowych z przykładowymi programami. Warszawa, Akademicka Oficyna Wydawnicza PLJ.
Żurada J., Barski M., Jędruch W. 1996: Sztuczne sieci neuronowe. Warszawa, Wydawnictwo Naukowe PWN.