Prognozowanie deformacji za pomocą sieci neuronowych dla niecek w stanie aspymptotycznym

Podobne dokumenty
1. Wstęp. 2. Sformułowanie problemu

ZASTOSOWANIE SIECI NEURONOWYCH DO PROGNOZOWANIA ASYMPTOTYCZNYCH ODKSZTAŁCEŃ POZIOMYCH POWIERZCHNI WYWOŁANYCH EKSPLOATACJĄ PODZIEMNĄ

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**

tylko nieliniowe, ale wręcz wielowartościowe funkcje. Narzędzie to daje więc olbrzymie możliwości. Dotychczas sztuczne sieci neuronowe skutecznie

Wstęp do sieci neuronowych, wykład 6 Wsteczna propagacja błędu - cz. 3

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)

Projekt Sieci neuronowe

PRÓBA ZASTOSOWANIA SIECI NEURONOWYCH DO PROGNOZOWANIA OSIADAŃ POWIERZCHNI TERENU POWSTAŁYCH NA SKUTEK EKSPLOATACJI GÓRNICZEJ**

Zastosowania sieci neuronowych

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

SIECI RBF (RADIAL BASIS FUNCTIONS)

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Sztuczne Sieci Neuronowe. Wiktor Tracz Katedra Urządzania Lasu, Geomatyki i Ekonomiki Leśnictwa, Wydział Leśny SGGW

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Analiza składowych głównych. Wprowadzenie

PRZEWODNIK PO PRZEDMIOCIE

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Optymalizacja ciągła

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Podstawy Sztucznej Inteligencji (PSZT)

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Prognozowanie kierunku ruchu indeksów giełdowych na podstawie danych historycznych.

Wprowadzenie do analizy korelacji i regresji

PROGNOZOWANIE CENY OGÓRKA SZKLARNIOWEGO ZA POMOCĄ SIECI NEURONOWYCH

Analiza możliwości szacowania parametrów mieszanin rozkładów prawdopodobieństwa za pomocą sztucznych sieci neuronowych 4

Uczenie sieci neuronowych i bayesowskich

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

WYKORZYSTANIE SZTUCZNYCH SIECI NEURONOWYCH W PROGNOZOWANIU

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

Agnieszka Nowak Brzezińska

Inteligentna analiza danych

Sieci neuronowe w Statistica

KLASYFIKACJA. Słownik języka polskiego

Przykładowe funkcje przejścia używane przy budowie sztucznych neuronów

Sieci obliczeniowe poprawny dobór i modelowanie

Metody Sztucznej Inteligencji II

ZASTOSOWANIE SIECI NEURONOWYCH DO OPTYMALIZACJI WARUNKÓW OBRÓBKI CIEPLNEJ STOPÓW Mg-Al

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Aproksymacja funkcji a regresja symboliczna

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Systemy uczące się Lab 4

Uczenie sieci radialnych (RBF)

SZTUCZNA INTELIGENCJA

Temat: ANFIS + TS w zadaniach. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Elementy inteligencji obliczeniowej

Sieci neuronowe - dokumentacja projektu

Testowanie modeli predykcyjnych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

8. Neuron z ciągłą funkcją aktywacji.

Statystyczne Metody Opracowania Wyników Pomiarów

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Systemy uczące się wykład 2

Streszczenie. Słowa kluczowe: modele neuronowe, parametry ciągników rolniczych

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

WYKORZYSTANIE SIECI NEURONOWYCH DO ODWZOROWANIA DEFORMACJI POWIERZCHNI NA TERENACH GÓRNICZYCH

Agnieszka Nowak Brzezińska Wykład III

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Temat: Sieci neuronowe oraz technologia CUDA

Wykład 5: Statystyki opisowe (część 2)

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Rys Wykres kosztów skrócenia pojedynczej czynności. k 2. Δk 2. k 1 pp. Δk 1 T M T B T A

METODY INŻYNIERII WIEDZY

WYZNACZANIE WARTOŚCI PODSTAWOWYCH PARAMETRÓW TECHNICZNYCH NOWOCZESNYCH KOMBAJNÓW ZBOŻOWYCH PRZY UŻYCIU SSN

Agnieszka Nowak Brzezińska Wykład III

Elementy statystyki wielowymiarowej

SZTUCZNA INTELIGENCJA

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Oprogramowanie Systemów Obrazowania SIECI NEURONOWE

wiedzy Sieci neuronowe

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Spis treści Wykaz ważniejszych pojęć Wykaz ważniejszych oznaczeń Wstęp 1. Wprowadzenie w problematykę ochrony terenów górniczych

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Zadania ze statystyki, cz.6

Przykładowa analiza danych

WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Sterowanie wielkością zamówienia w Excelu - cz. 3

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Zastosowania sieci neuronowych

Hierarchiczna analiza skupień

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Elementy modelowania matematycznego

ZASTOSOWANIE AUTORSKIEJ METODY WYZNACZANIA WARTOŚCI PARAMETRÓW NOWOCZESNYCH SYSTEMÓW TECHNICZNYCH DO PŁUGÓW I OPRYSKIWACZY POLOWYCH

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

METODY INŻYNIERII WIEDZY

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Transkrypt:

WOJCIECH GRUSZCZYŃSKI Akademia Górniczo-Hutnicza, Wydział Geodezji Górniczej i Inżynierii Środowiska, Katedra Geodezji Górniczej Prognozowanie deformacji za pomocą sieci neuronowych dla niecek w stanie aspymptotycznym Streszczenie. Sieci neuronowe są narzędziem wykorzystanym dotychczas z powodzeniem w wielu złożonych zagadnieniach związanych z prognozowaniem, klasyfikacją i sterowaniem. W artykule przedstawiono metodę ich wykorzystania do prognozowania deformacji górniczych. Skoncentrowano się w szczególności na obniżeniach i odkształceniach poziomych. Do prognozowania wykorzystano szeroką gamę sieci neuronowych od liniowych, przez MLP, RBF, GRNN, a na MDN kończąc. Ta ostatnia (Mixture Density Network) pozwala nie tylko na prognozę wartości oczekiwanej wskaźnika deformacji, ale także jego pełnego rozkładu warunkowego (uwarunkowanego eksploatacją). Ma to fundamentalne znaczenie dla prognoz odkształceń poziomych. Badania będące przedmiotem artykułu dotyczyły wskaźników deformacji dla niecek w stanie asymptotycznym. 1. WSTĘP Sieci neuronowe są systemami obliczeniowymi stosowanymi w wielu różnych zagadnieniach [6, 7, 8, 9]. Znane są przykłady wykorzystania ich z powodzeniem do klasyfikacji (np. rozpoznawanie odcisków palców, identyfikacja samolotów), prognozowania (np. cen walut, pogody) czy sterowania (np. ramieniem robota, zaworami doprowadzającymi paliwo do silników rakiet). Zostały one wykorzystane do tych złożonych zagadnień ze względu na ich elastyczność (zdolności adaptacyjne) i odporność na szumy. Cechy te czynią z nich obiecujące narzędzie również do prognozowania tak złożonego zjawiska, jakim są deformacje górnicze wywołane eksploatacją podziemną. Zjawisko to badane jest bez mała od stu lat. Do prognozowania skutków eksploatacji rozumianych jako zmiany wzajemnego położenia punktów na powierzchni terenu wykorzystywano i obecnie wykorzystuje się na świecie bardzo wiele różnorodnych metod. W Polsce przyjął się podział ich na trzy grupy, tj. metody geometryczno całkowe, geomechaniczne i stochastyczne. Do trzeciej grupy należy między innymi model Knothego, najbardziej rozpowszechniony w Polsce. Ta grupa metod traktuje zjawisko deformacji jako proces losowy wywołany czynnikiem deterministycznym, jakim jest eksploatacja górnicza. Prezentowane w dalszej części publikacji wyniki dotyczą niecek w stanie asymptotycznym. Za nieckę w stanie asymptotycznym uważa się taką, dla której zasadnicza część obniżeń spowodowanych zaistniałą do danego momentu eksploatacją ujawniła się na powierzchni. W niecce takiej nie dojdzie do istotnego przyrostu obniżeń punktów na powierzchni terenu jeżeli nie dojdzie do wznowienia eksploatacji. 1

2. SFORMUŁOWANIE PROBLEMU Dla prognozowania deformacji, za pomocą sieci neuronowych, wykorzystano parametry modelu Knothego [4]. Pierwszy z nich β, czyli kąt zasięgu wpływów głównych charakteryzuje górotwór i jego właściwości. Zazwyczaj nie używa się samego β, a tangensa tego kąta. Często również używany jest promień zasięgu wpływów głównych r, który związany jest z poprzednimi wielkościami poprzez zależność: H r = (1) tgβ gdzie: - H jest głębokością na której prowadzona jest eksploatacja. Tak zdefiniowany parametr uwzględniający zarówno górotwór, jak i głębokość eksploatacji, można opisać jako odległość poziomą, w granicach której eksploatacja ma wpływ na obniżenie punktów. Drugim parametrem teorii Knothego jest a, odzwierciedlające wpływ sposobu likwidacji zrobów na deformacje górnicze. Jeżeli jako W max oznaczymy maksymalne obniżenie mogące się pojawić przy danym sposobie likwidacji zrobów dla ustalonej grubości eksploatacji i przy nieskończonej powierzchni podlegającej eksploatacji, to: W = a g gdzie: - g grubość eksploatacji. max (2) Dla zastosowania sieci neuronowych do prognozy konieczne było stworzenie ciągu przykładów uczących. Pozwalają one na ustalenie parametrów (wag połączeń itd.) sieci. Przykład składa się z danych (przyczyna) i prawidłowych odpowiedzi (obserwowany skutek). Pojedynczy przykład składa się z danych i obserwacji dotyczących jednego punktu (w przypadku obniżeń) lub jednego odcinka (w przypadku odkształceń) znajdującego się na powierzchni. Dla prognozowania obniżeń (w), konieczne było przekazanie, jako danych, informacji o eksploatacji wokół punktu [3] (kształt i rozmiary). Wejścia sieci neuronowych przyjmują informacje (dane) w postaci liczb. Obszar w odległości r wokół analizowanego punktu podzielono na 400 kwadratów (rys. 1). Każdemu z nich przypisano atrybut odpowiadający intensywności przeprowadzonej w nim eksploatacji. Zaproponowane zostały dwa typy atrybutów opisujących intensywność eksploatacji. Pierwszy z nich obliczano według wzoru: i A = a * g * p (3) gdzie: - i A wartość atrybutu, - p ułamek wyeksploatowanej powierzchni w danym kwadracie (powierzchnia wyeksploatowana do powierzchni całkowitej). Dla tak zdefiniowanego zestawu danych przyjęto, iż odpowiedzią sieci będzie obserwowane obniżenie punktu. 2

Rys. 1. Podział obszaru wokół analizowanego punktu na kwadraty elementarne a analizowany punkt, b elementarny kwadrat i przypisany mu atrybut Drugim typem atrybutów (i B ), jakie wykorzystano w badaniach, była sama liczba p. Przy stosowaniu atrybutów i B zadaniem sieci neuronowych było prognozowanie ułamka W max. Ułamek ten może być z łatwością przeliczony na faktyczną wartość obniżenia (poprzez pomnożenie przez W max ), odbywa się to jednak poza siecią neuronową. Oba przedstawione sposoby przekazywania danych o eksploatacji nakładają pewne ograniczenia na przykłady wykorzystywane w czasie uczenia. Dla pierwszego typu atrybutów (i A ) eksploatacja musi przebiegać w pokładzie poziomym lub prawie poziomym, tak aby wartość r była w przybliżeniu stała w danym przykładzie. Dla drugiego typu atrybutów (i B ) dodatkowo W max musi być w przybliżeniu stałe dla całego przykładu. Uczenie sieci neuronowych o nieliniowych funkcjach aktywacji jest procesem iteracyjnym. Zakończenie uczenia jest w zasadzie arbitralną decyzją. W przypadku gdy sieć ma zbyt mało jednostek (neuronów) lub proces uczenia był zbyt krótki, sieć będzie niedouczona, tj. nie będzie w sposób poprawny odzwierciedlać zależności pomiędzy przyczyną a skutkiem. Efektem tego będzie albo całkowicie zła praca sieci, albo jedynie zgrubne odwzorowanie istniejącej zależności. W przypadku, gdy sieć neuronowa ma za dużo jednostek, istnieje ryzyko przeuczenia (overfitting). Wówczas sieć będzie bardzo dobrze przedstawiać zależność pomiędzy przyczyną a skutkiem dla przykładów uczących. Niestety wyuczona przez nią zależność nie będzie zachowywać ogólności, tj. będzie źle działać dla przykładów spoza zbioru wykorzystanego w trakcie uczenia. Przeuczenie związane jest z odwzorowywaniem szumów i właściwości charakterystycznych dla przykładów uczących, które nie są typowe dla całej populacji. W przeprowadzonych badaniach przykłady w ciągach uczących zostały podzielone na trzy grupy, tj.: - treningową wykorzystywaną do nauki sieci neuronowej; z pomocą tej grupy obliczane są wagi połączeń między neuronami, 3

- weryfikacyjną służącą do sprawdzenia poprawności procesu uczenia i ustrzeżenia się przed niedouczeniem i przeuczeniem; wagi uznawane są za optymalne, gdy przykłady z grupy weryfikacyjnej są możliwie jak najlepiej odwzorowywane (przerywany jest proces uczenia), - testową wykorzystywaną do ostatecznej oceny procesu uczenia już po jego zakończeniu; ta grupa spełnia zadanie przykładów, które będą podawane sieci w czasie jej wykorzystywania do faktycznych prognoz. Przy prognozowaniu obniżeń niecek w stanie asymptotycznym trudno wyodrębnić kierunek poziomy szczególnie uprzywilejowany. Dla uniezależnienia od lokalnego układu odniesienia (kierunku osi) i powiększenia zasobów przykładów uczących zdecydowano o powieleniu każdego z przykładów na drodze 36-krotnego obrotu układu wokół analizowanego punktu. Obrót wykonywano o stały kąt tak, aby żaden z kierunków nie był bardziej wyeksponowany od innych. We wstępnych próbach liczba zmiennych wejściowych (a co za tym idzie połączeń w sieci) była równa liczbie obliczonych atrybutów, a więc bardzo duża (400). W sposób znaczący wydłużało to proces uczenia, a każda ze zmiennych wejściowych niosła stosunkowo niewielką porcję informacji. Stwarzało to bardzo niekorzystną sytuację, szczególnie przy wykorzystywaniu sieci liniowych. Było to tym bardziej uciążliwe, iż rozmiar ciągu uczącego wzrósł w sposób znaczący (36-krotnie) po wykonaniu obrotów, ale i bez tego problem wymagał redukcji liczby zmiennych wejściowych. Dla redukcji danych zastosowano analizę składowych głównych [5] (Principal Components Analisys PCA). Pozwoliła ona na znaczącą redukcję danych wejściowych (z 400 do 10-30) przy małej utracie przenoszonej przez nie informacji (5-20%). Tak przygotowane dane stanowiły podstawę do nauki sieci i oceny jej późniejszej przydatności do prognozowania. Uznano, że prognozowanie nachyleń i krzywizn będzie wykonywane w sposób pośredni, tj. te wskaźniki deformacji obliczane będą na podstawie prognozowanych obniżeń. Zrezygnowano z prognozowania przesunięć poziomych ze względu na niedostateczny materiał pomiarowy (brak przykładów pozwalających na wyznaczenie tego wskaźnika). Za niezwykle interesujące natomiast uznano prognozowanie odkształceń poziomych. Jako odkształcenie poziome rozumiana jest tutaj względna zmiana długości odcinka pomiarowego. Zgromadzony materiał pomiarowy pozwalał na podjęcie prób w tym zakresie. Zaproponowano dwie metody prognozowania odkształceń. Pierwsza, bezpośrednia, podobnie jak w przypadku obniżeń wykorzystywała podział obszaru wokół punktu na kwadraty. Zastosowano tu dwa typy atrybutów, takich samych jak w przypadku obniżeń. Różnica w budowie przykładów uczących polegała na podaniu jako wartości wynikowej odkształcenia poziomego w miejsce obniżenia (lub też ilorazu odkształcenia przez W max w przypadku atrybutów i B ). Ponieważ dla wartości odkształcenia istotny jest kierunek, w którym jest ono wyznaczane, we wstępnych próbach przekazywano ten kierunek (jego wartość) jako jeden z parametrów wejściowych. Ten sposób przekazywania danych już w badaniach wstępnych okazał się nieefektywny. W związku z tym ustalono jeden kierunek prognozowania odkształceń. Wiązało się to rezygnacją z 36 obrotów wokół punktu, na rzecz takiego obrotu układu współrzędnych, aby kierunek boku, dla którego wyznaczano odkształcenie, był zgodny z przyjętym kierunkiem prognozowania tego wskaźnika. Istnieją zawsze dwa takie położenia dla każdego boku. Dane dla każdego odcinka podawane były dwukrotnie, raz w położeniu prostym, drugi raz w układzie obróconym o 180 o. Pozytywnym skutkiem takiego przedstawiania danych było znaczące uproszczenie zadania sieci neuronowej, a także zmniejszenie rozmiaru zbioru uczącego, co miało niezwykle istotny wpływ na czas 4

uczenia sieci. Podobnie jak w przypadku obniżeń do redukcji danych wejściowych zastosowano PCA (ze zbliżonym jak w przypadku obniżeń skutkiem). Druga metoda prognozowania odkształceń, pośrednia, wykorzystuje krzywizny (K), obliczone na podstawie prognozowanych obniżeń. W tej metodzie wykorzystano zależność pomiędzy wartościami krzywizn i odkształceń. Pojedynczy przykład uczący składał się z wartości obliczonej na podstawie prognozy krzywizny pomnożonej przez promień zasięgu wpływów głównych dla danego przykładu (r) i odpowiedzi w postaci obliczonego odkształcenia poziomego. Zarówno krzywizny, jak i odkształcenia charakteryzują się dużym rozproszeniem losowym. Dla obu wskaźników rozproszenie to maleje wraz z wydłużaniem odcinków, na których są one wyznaczane. Długość odcinka, na jakim wyznaczano wskaźniki, ma wpływ także na siłę współzależności pomiędzy iloczynami krzywizny i parametru r a wartościami odkształceń. Biorąc to pod uwagę, zdecydowano o zbadaniu tej zależności i możliwości jej wykorzystania do prognozowania odkształceń w zależności od długości odcinków, na których wyznaczano wskaźniki. Utworzono cztery ciągi uczące. W każdym z nich wskaźniki obliczano (zarówno krzywizny jak i odkształcenia) dla przyjętej w tym ciągu krotności odcinków pomiarowych (rys. 2): pierwszy ciąg uczący przedstawiał zależność na pojedynczych odcinkach, drugi na podwójnych, trzeci na potrójnych, a czwarty na poczwórnych. Przyjęty podział, badający zależność ze względu na krotność odcinków, na których wyznaczano wskaźniki, nie jest dokładnie badaniem zależności od długości odcinków bazowych. Jednakże przy założeniu, że odcinki pomiarowe są mniej więcej równych długości (z nielicznymi wyjątkami), a linie obserwacyjne są względnie prostolinijne można uznać takie postawienie problemu za prawidłowe. Rys. 2. Schemat tworzenia ciągów uczących do analizy zależności pomiędzy iloczynami krzywizny i promienia zasięgu wpływów głównych a odkształceniami poziomymi Przy wyborze najlepszej sieci do realizacji danego zadania kierowano się dokładnościami prognoz dla grupy weryfikacyjnej. Analizowano zachowanie wielu rodzajów sieci neuronowych o różnych rozmiarach, w tym: liniowych, MLP (multi layer perceptron), RBF (radial basis function), GRNN (generalized regression neural network) i MDN [1, 2] (mixture 5

density network). Ta ostatnia pozwoliła na zbadanie warunkowego rozkładu gęstości prawdopodobieństwa zmiennej wyjściowej (uwarunkowanego danymi wejściowymi). Pozwoliło to na ocenę dokładności prognozy z indywidualnie wyznaczonym odchyleniem standardowym prognozowanego wskaźnika dla każdego punktu, a także na wykrycie skośności i innych cech rozkładu w danych i/lub w samym zjawisku. Do treningu wykorzystywano metody: pseudo-inverse (pseudo-odwrotności) dla sieci liniowych, back propagation (wstecznej propagacji) i quasi-newton dla sieci MLP. W przypadku GRNN centra kopiowano bezpośrednio (duża liczba jednostek), szukając najlepszej możliwej wartości parametru wygładzającego. W RBF zastosowano do ustalenia centrów metodę K-Means (k-średnich), a dla ustalenia odchylenia K-Nearest (k-sąsiadów), warstwę wyjściową uczono metodą pseudo-inverse (pseudo-odwrotności). Sieć MDN uczona była za pomocą algorytmu scaled conjugate gradient (skalowanego sprzężonego gradientu). Do symulacji działania sieci neuronowych wykorzystano program MATLAB 7.0 z biblioteką NetLab (w przypadku sieci MDN), oraz program Statistica Neural Networks (reszta). 3. WYNIKI PROGNOZOWANIA OBNIŻEŃ W prognozowaniu obniżeń lepsze wyniki uzyskano przy wykorzystaniu atrybutów typu i B i podejścia z nimi związanego. Przy ich zastosowaniu, dla poprawnego prognozowania obniżenia wymagane były sieci o znacznie mniejszych rozmiarach, niż dla atrybutów i A. Dla atrybutów i A przy małych rozmiarach sieci zachodziło zjawisko zawieszania prognozowanych obniżeń na kilku poziomach. Dla linii pomiarowych bardziej popularnych w zbiorze uczącym W max prognozy wykonywane były poprawnie; w zależności od rozmiarów sieci było mniej lub więcej takich poziomów. W pozostałych przypadkach sieć próbowała na siłę prognozować obniżenia tak, by dostosować się do któregoś z bardziej popularnych przypadków. Objawiało się to w miarę dobrą prognozą brzegów niecki, a niewłaściwą dla dna, które znajdowało się w znaczącej odległości (pionowej) od faktycznie obserwowanego. Zjawisko to wywołane było niedostateczną liczbą linii obserwacyjnych wykorzystanych w zbiorze uczącym. Zapobiec mu można przez rozszerzenie zbioru uczącego o przykłady z W max znajdującymi się pomiędzy popularnymi wartościami. Wraz ze wzrostem liczby neuronów ukrytych w sieciach pojawiało się coraz więcej poziomów W max, na których prognoza wykonywana była poprawnie. Zwiększanie liczby neuronów powyżej pewnej granicy przestawało jednak przynosić pozytywne efekty, co wiązało się z ograniczeniami zbioru uczącego. Przy wyeliminowaniu z danych zarówno r, jak i W max opisany powyżej problem znika całkowicie. Dochodzi bowiem do zawężenia przestrzeni wyjściowej z przedziału od 0- W max ( W max zależne od eksploatacji, różne w różnych przykładach) do przedziału 0-1. Ułatwia to naukę sieci, zmniejsza liczbę przykładów uczących koniecznych do poprawnego wytrenowania sieci, a także zwiększa zaufanie do generowanych przez sieć wyników (znikają wątpliwości, czy w tym konkretnym przypadku sieć znowu się nie zawiesiła na jakimś niewłaściwym poziomie W max ). Dla atrybutów i A cały ciąg danych (trening ~70%, weryfikacja ~20%, test ~10%) zbudowany został na 774 punktach, co po obrotach układów współrzędnych dawało łącznie 25704 przykłady. Najlepsze wyniki uzyskano dla sieci MLP o strukturze 12:20:1 (12 wejść, 20 jednostek ukrytych, 1 wyjście). Sieć ta uzyskała błąd średni prognozy o wartościach: dla grupy treningowej ~90mm, dla weryfikacyjnej ~97mm, a dla testowej ~101mm. Wartości W max w grupie testowej i weryfikacyjnej zawierały się w przedziale od ~200 do ~4000mm. 6

Dla grupy testowej zbudowanej na danych z jednej linii obserwacyjnej wartość W max wynosiła ~1500mm, tak więc błąd średni prognozy stanowił około 6,7% W max. Generalnie pozostałe typy sieci radziły sobie z postawionym przed nimi zadaniem nieco gorzej, ale trudno wysuwać tu jakieś daleko idące wnioski. Na przykład sieć GRNN dawała znacznie lepsze wyniki dla zbioru treningowego (błąd ~58mm), porównywalne dla weryfikacyjnego (~108mm), ale dla testowego zdecydowanie gorsze (błąd ~181mm). Dla atrybutów i B cały ciąg danych wykorzystanych do badania (trening ~78%, weryfikacja ~11%, test ~11%) zbudowany został na 526 punktach, co po obrotach układów współrzędnych dawało 18936 przykładów. W przypadku wykorzystania tego rodzaju atrybutów wiele sieci uzyskiwało porównywalne dokładności prognoz. Najdokładniej (rys. 3) dla zbioru weryfikacyjnego prognozę wykonała sieć MLP o budowie 23:5:1. Błąd średni prognozy dla zbioru treningowego miał wartość ~5.8% W max, weryfikacyjnego ~4%, a dla linii testowej (tej samej co dla i A ) ~6.1%. Spośród pozostałych sieci dobre wyniki uzyskała sieć GRNN (błędy odpowiednio ~3.5% trening, ~5.4% weryfikacja, ~4.6% test). Ciekawe także rezultaty uzyskano z zastosowaniem sieci MDN (rys. 4). Jak już wspomniano wcześniej, pozwoliła ona na ocenę rozkładu warunkowego prognozowanego obniżenia. Ma to istotne znaczenie przy wykonywaniu prognoz dla danych, z nieznanymi poprawnymi odpowiedziami (zastosowanie do realnych prognoz). Rys. 3. Prognoza obniżeń dla zbioru testowego przy zastosowaniu sieci MLP 23:5:1 7

Rys. 4. Prognoza obniżeń dla zbioru testowego przy zastosowaniu sieci MDN 23:5:3:1 4. WYNIKI PROGNOZ DLA ODKSZTAŁCEŃ POZIOMYCH Prognozowanie odkształceń poziomych jest znacznie trudniejszym zagadnieniem niż prognozowanie obniżeń. Z uwagi na silne rozproszenie losowe tego wskaźnika szczególnie istotne jest, aby prognozy poza średnią wartością wskaźnika obejmowały także jego odchylenie standardowe. Z tej perspektywy niezwykle korzystnie prezentują się sieci neuronowe typu MDN. Przy zastosowaniu atrybutów typu i A i i B uzyskiwano podobne dokładności prognoz. W obu przypadkach błąd średni prognozy dla grupy treningowej i weryfikacyjnej wahał się dla różnych sieci w granicach 3-4 mm/m. Dla przykładu testowego, w którym przebieg wskaźników deformacji jest niezwykle regularny, średni błąd prognozy wahał się dla różnych sieci w granicach 1-2 mm/m. Najlepsze rezultaty uzyskano dla sieci RBF o strukturze 14:50:1. Osiągnęła ona dla grup treningowej i weryfikacyjnej dokładność ~3 mm/m, a dla zbioru testowego ~1.5 mm/m. Wyniki uzyskiwane przy wykorzystywaniu zależności pomiędzy krzywiznami i odkształceniami były ściśle zależne od długości odcinka bazowego. Dla pojedynczych odcinków wyniki prognoz w zasadzie porównywalne były z uzyskiwanymi dla wcześniej opisanej metody prognozowania (z wykorzystaniem podziału na kwadraty). Jednakże wraz ze wzrostem długości odcinków bazowych dokładności prognoz poprawiały się, rosła także korelacja pomiędzy iloczynem krzywizn i r a wartością odkształcenia poziomego. Dla pojedynczych odcinków miała ona wartość 0.42, podwójnych 0.72, potrójnych 0.80, a poczwórnych 0.84. W zasadzie już dla podwójnych odcinków bazowych opisywana zależność jest dość dobrze modelowana przez prostą (ewentualnie przez sieć liniową). Ze względu jednak na 8

możliwość oceny rozkładu warunkowego przez sieć MDN ją właśnie należy uznać za lepsze narzędzie do prognozowania odkształceń (rys. 4). Wyniki uzyskiwanych przez nią prognoz nie są lepsze niż przy wykorzystaniu modelu liniowego, jednakże często odchylenie standardowe wartości tego wskaźnika ma równie duże znaczenie, jak prognozowana wartość średnia. Rys. 5. Prognoza odkształceń poziomych dla podwójnych odcinków przy zastosowaniu sieci MDN 1:5:3:1 5. WNIOSKI Analiza wyników przeprowadzonych badań pozwoliła na sformułowanie następujących wniosków: 1. Rozmiary zbioru uczącego, a także minimalna liczba jednostek sieciach neuronowych konieczna do prawidłowego prognozowania obniżeń zależą w dużym stopniu od sposobu wstępnego przetworzenia danych. 2. Zastosowanie atrybutów i B i związanego z nimi podejścia daje (w porównaniu do atrybutów i A ) dla obniżeń lepsze efekty ze względu na mniejsze rozmiary koniecznej do poprawnego prognozowania sieci i zbioru uczącego, skrócenie czasu uczenia, a także większe zaufanie do wyników prognoz. 3. Zastosowanie analizy składowych głównych do redukcji danych przynosi pozytywne rezultaty w postaci znacznej redukcji danych (z 400 do 10-30) przy stosunkowo niewielkiej ilości traconej informacji (5-20%). Pozwala to na znaczne skrócenie czasu uczenia sieci i wpływa korzystnie na uzyskiwane rezultaty, zwłaszcza dla sieci liniowych. 4. Wytrenowanie sieci do prognozowania obniżeń wymaga mniejszego zbioru uczącego niż dla odkształceń poziomych. 5. Pomysł z prognozowaniem odkształceń w kierunku przekazywanym jako parametr jest chybiony. Wydłuża sztucznie zbiór uczący, co wydłuża uczenie, a ponadto sposób ten daje bardzo słabe wyniki. 6. Wraz z wydłużeniem baz rośnie korelacja pomiędzy iloczynem krzywizn i promienia zasięgu głównych a odkształceniami poziomymi. 9

7. Sieci MDN pozwalają na prognozowanie poza wartością średnią wskaźnika także jego odchylenia standardowego, co ma istotne znaczenie zwłaszcza dla odkształceń poziomych. LITERATURA 1. Bishop Ch. M.: Mixture Density Networks. Neural Computing Research Group Report: NCRG/94/004 1994. 2. Bishop Ch. M.: Theoretical Foundations of Neural Networks.Kraków, Physics Computing 1996. 3. Gruszczyński W.: Próba zastosowania sieci neuronowych do prognozowania obniżeń w nieckach pełnych wywołanych podziemną eksploatacją górniczą. Kraków, Zeszyty Naukowe AGH seria Geodezja 2004. 4. Hejmanowski R.: Prognozowanie deformacji górotworu i powierzchni terenu na bazie uogólnionej teorii Knothego dla złóż surowców stałych, ciekłych i gazowych. Kraków, IGSMiE PAN 2001. 5. Kemsley E. K.: Discriminant analysis of high-dimensional data: a comparision of principal components analysis and partial least squares data reduction methods. Norwich, Chemimetrics and Intelligent Laboratory Systems 1995. 6. Masters T.: Sieci neuronowe w praktyce. Warszawa, Wydawnictwa Naukowo-Techniczne 1996. 7. Rutkowska D., Piliński M., Rutkowski L.: Sieci neuronowe, algorytmy genetyczne i systemy rozmyte. Warszawa, Wydawnictwo Naukowe PWN 1997. 8. Tadeusiewicz R.: Elementarne wprowadzenie do techniki sieci neuronowych z przykładowymi programami. Warszawa, Akademicka Oficyna Wydawnicza PLJ 1998. 9. Żurada J., Barski M., Jędruch W.: Sztuczne sieci neuronowe. Warszawa, Wydawnictwo Naukowe PWN 1996. 10