Predykcyjny model dobowej emisji energii sejsmicznej indukowanej eksploatacją górniczą

Podobne dokumenty
Metody oceny stanu zagrożenia tąpaniami wyrobisk górniczych w kopalniach węgla kamiennego. Praca zbiorowa pod redakcją Józefa Kabiesza

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)

Michał PIECHA, Agnieszka KRZYŻANOWSKA, Marta Kozak KWK Bielszowice

BADANIE WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO

ewolucja poglądów na pochodzenie wstrząsów

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Analiza efektywności rejestracji przyspieszeń drgań gruntu w Radlinie Głożynach

OKREŚLENIE NISZCZĄCEJ STREFY WPŁYWÓW DLA ZJAWISK SEJSMICZNYCH. 1. Wprowadzenie. Jan Drzewiecki* Górnictwo i Geoinżynieria Rok 32 Zeszyt

Czasowe zmiany parametru b relacji Gutenberga-Richtera dla oceny zagrożenia sejsmicznego w ścianie 2 i 3 w pokładzie 503 w KWK Bobrek-Centrum

OCENA STANU ZAGROŻENIA WSTRZĄSAMI GÓRNICZYMI Z WYKORZYSTANIEM RELACJI GUTENBERGA-RICHTERA

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Przewidywanie w geofizyce górniczej

Analiza możliwości szacowania parametrów mieszanin rozkładów prawdopodobieństwa za pomocą sztucznych sieci neuronowych 4

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Analiza wpływu przerw w eksploatacji ścian na zagrożenie sejsmiczne na przykładzie KWK Piast

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Analiza związku wysokoenergetycznej sejsmiczności z anomaliami grawimetrycznymi i magnetycznymi na terenie GZW

ANALITYCZNE PODEJŚCIE PROGNOSTYCZNE, STOSOWANE DO OCENY POTENCJALNEGO ZAGROŻENIA TĄPANIAMI WYROBISK GÓRNICZYCH

9. Praktyczna ocena jakości klasyfikacji

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

AKTYWNOŚĆ SEJSMICZNA W GÓROTWORZE O NISKICH PARAMETRACH WYTRZYMAŁOŚCIOWYCH NA PRZYKŁADZIE KWK ZIEMOWIT

PRAWDOPODOBIEŃSTWO ZNISZCZENIA WYROBISKA GÓRNICZEGO W NASTĘPSTWIE WSTRZĄSU SEJSMICZNEGO. 1. Wprowadzenie. Jan Drzewiecki*

Statystyka i Analiza Danych

PROGNOZOWANIE CENY OGÓRKA SZKLARNIOWEGO ZA POMOCĄ SIECI NEURONOWYCH

Sieci neuronowe w Statistica

Wprowadzenie do analizy korelacji i regresji

ANALIZA ODLEGŁOŚCI I CZASU MIĘDZY WSTRZĄSAMI ZE STRZELAŃ TORPEDUJĄCYCH A SAMOISTNYMI O ENERGII RZĘDU E4 J W WARUNKACH KW SA KWK,,PIAST

Ewelina Dziura Krzysztof Maryański

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

ALGORYTM RANDOM FOREST

Indukowane Reguły Decyzyjne I. Wykład 8

Analiza tąpnięć zaistniałych w kopalniach GZW wraz z oceną stanów zagrożenia tąpaniami

ANALIZA ROZKŁADU WSTRZĄSÓW GÓROTWORU W REJONIE ŚCIANY B-1 POKŁADU 403/3 W ASPEKCIE WYBRANYCH CZYNNIKÓW GÓRNICZYCH I GEOLOGICZNYCH**

METODY ROZPOZNAWANIA STANU AKTYWNOŚCI SEJSMICZNEJ GÓROTWORU I STRATEGIA OCENY TEGO ZAGROŻENIA

WYKORZYSTANIE SZTUCZNYCH SIECI NEURONOWYCH W PROGNOZOWANIU

WARSZTATY 2001 nt. Przywracanie wartości użytkowych terenom górniczym

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

WYZNACZANIE WARTOŚCI PODSTAWOWYCH PARAMETRÓW TECHNICZNYCH NOWOCZESNYCH KOMBAJNÓW ZBOŻOWYCH PRZY UŻYCIU SSN

PRÓBA ZASTOSOWANIA SIECI NEURONOWYCH DO PROGNOZOWANIA OSIADAŃ POWIERZCHNI TERENU POWSTAŁYCH NA SKUTEK EKSPLOATACJI GÓRNICZEJ**

Stanisław Cichocki. Natalia Nehrebecka

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Ćwiczenie 12. Metody eksploracji danych

Aktywność sejsmiczna w strefach zuskokowanych i w sąsiedztwie dużych dyslokacji tektonicznych w oddziałach kopalń KGHM Polska Miedź S.A.

ANALIZA WYPADKÓW ZWIĄZANYCH Z ZAGROŻENIEM METANOWYM W KOPALNIACH WĘGLA KAMIENNEGO W LATACH

PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING

Widzenie komputerowe (computer vision)

Władysław KONOPKO Główny Instytut Górnictwa, Katowice

DRZEWA REGRESYJNE I LASY LOSOWE JAKO

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Sprawozdanie ze stażu naukowo-technicznego

PRZEGLĄD GÓRNICZY 2014

Data Mining Wykład 4. Plan wykładu

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

KRZYWE ROC, CZYLI OCENA JAKOŚCI KLASYFIKATORA I POSZUKIWANIE OPTYMALNEGO PUNKTU ODCIĘCIA

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Statystyczna analiza awarii pojazdów samochodowych. Failure analysis of cars

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

mgr inż. Dariusz Janik* mgr inż. Dariusz Juszyński* Streszczenie

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Stanisław Cichocki. Natalia Nehrebecka

Sposoby prezentacji problemów w statystyce

Próba określenia rozkładu współczynnika tłumienia na wybiegu ściany 306b/507 w KWK Bielszowice metodą pasywnej tłumieniowej tomografii sejsmicznej

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

Rola tektoniki w oddziaływaniu na powierzchnię wysokoenergetycznej sejsmiczności w GZW

BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI

ZWIĘKSZENIE BEZPIECZEŃSTWA PODCZAS ROZRUCHU ŚCIANY 375 W KWK PIAST NA DRODZE INIEKCYJNEGO WZMACNIANIA POKŁADU 209 PRZED JEJ CZOŁEM****

Analiza parametrów sejsmiczności indukowanej górotworu w rejonach eksploatacyjnych O/ZG Rudna

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

AKTYWNOŚĆ SEJSMICZNA GÓRNOŚLĄSKIEGO ZAGŁĘBIA WĘGLOWEGO

Charakterystyka zagrożenia tąpaniami występującego w kopalniach Kompanii Węglowej SA

WPŁYW DRENAŻU NA EFEKTYWNOŚĆ ODMETANOWANIA W KOPALNI WĘGLA**

WYKORZYSTANIE MODELI AUTOREGRESJI DO PROGNOZOWANIA SZEREGU CZASOWEGO ZWIĄZANEGO ZE SPRZEDAŻĄ ASORTYMENTU HUTNICZEGO

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

Monitorowanie i prognozowanie zagrożeń sejsmicznych w kopalnianej stacji geofizyki górniczej

ZASTOSOWANIE AUTORSKIEJ METODY WYZNACZANIA WARTOŚCI PARAMETRÓW NOWOCZESNYCH SYSTEMÓW TECHNICZNYCH DO PŁUGÓW I OPRYSKIWACZY POLOWYCH

METODA PROGNOZOWANIA SZEREGÓW CZASOWYCH PRZY UŻYCIU SZTUCZNYCH SIECI NEURONOWYCH

PRZEWIDYWANIE WŁAŚCIWOŚCI PRODUKTU Z WYKORZYSTANIEM UCZENIA MASZYN

Aktywność sejsmiczna Górnośląskiego Zagłębia Węglowego 30 lat ciągłej obserwacji przez Górnośląską Regionalną Sieć Sejsmologiczną

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Streszczenie. Słowa kluczowe: modele neuronowe, parametry ciągników rolniczych

Optymalizacja ciągła

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Analiza danych. TEMATYKA PRZEDMIOTU

Możliwości badania zagrożenia sejsmicznego powierzchni na podstawie pomiarów przyspieszeń drgań gruntu

Inżynieria Rolnicza 3(121)/2010

Laboratorium 6. Indukcja drzew decyzyjnych.

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

2. Kopalnia ČSA warunki naturalne i górnicze

OCENA ZAGROŻENIA TĄPANIAMI W KOPALNIACH PODZIEMNYCH UWZGLĘDNIAJĄCA PARAMETRY DRGAŃ BLISKO OGNISK WSTRZĄSÓW DOŚWIADCZENIA Z POLSKICH KOPALŃ

Statystyka matematyczna i ekonometria

WYZNACZENIE WARTOŚCI PARAMETRÓW TEORII PROGNOZOWANIA WPŁYWÓW W PRZYPADKU EKSPLOATACJI GÓRNICZEJ PROWADZONEJ W DWÓCH POKŁADACH

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

POLITECHNIKA OPOLSKA

Transkrypt:

18 PRZEGLĄD GÓRNICZY 2014 UKD 622.333: 622.2-045.43: 622.83/.84: 001.891.54 Predykcyjny model dobowej emisji energii sejsmicznej indukowanej eksploatacją górniczą Predictive model of the daily release of seismic energy induced by mining dr hab. inż. Jacek Jakubowski* ) mgr inż. Łukasz Lenart ** ) Mgr inż. Łukasz Ożóg** ) Treść: W artykule przedstawiono budowę i ocenę predykcyjnego modelu klasyfikacyjnego dobowej emisji energii sejsmicznej indukowanej eksploatacją ścianową węgla. Model jest oparty na danych z katalogu wstrząsów i podstawowych danych o wydobyciu i ścianach eksploatowanych w partii XVI kopalni Piast w okresie od lipca 1987 do marca 2011. Zmienną prognozowaną jest dwustanowa zmienna określająca wystąpienie dobowej sumy energii sejsmicznej wstrząsów w rejonie ściany większej lub równej wartości progowej 10 5 J. Zastosowano trzy metody analityczne w schemacie data mining: regresję logistyczną, sieci neuronowe i drzewa wzmacniane. Jako najlepszy do celów prognozy wybrano model drzew wzmacnianych. Wyniki na zbiorze walidacyjnym pokazały jego dobrą zdolność predykcyjną, co zachęca do dalszych badań. Abstract: This paper presents the design and evaluation of the classification predictive model of daily seismic activity induced by longwall mining. The model combines seismic catalog data, output volume and basic characteristics of the longwall faces in sector XVI of the Piast coal mine over the period of July 1987 to March 2011. The predicted variable defines the occurrence of a daily sum of seismic energy released nearby the longwall, that is greater than or equal to the threshold value of 105 J. Machine learning and statistical methods were applied, namely neural networks, stochastic gradient boosted trees and logistic regression. The design and evaluation of the classification predictive models were presented. The boosted tree model appeared to meet the prediction quality criteria best. The results of the model evaluation show its promising predictive capability. Słowa kluczowe: sejsmiczność indukowana, wstrząsy górnicze, hazard sejsmiczny, zagrożenie tąpaniami, drzewa wzmacniane, sieci neuronowe, regresja logistyczna, modele prognostyczne, modele klasyfikacyjne Key words: induced seismicity, mining tremors, seismic hazard, rockburst hazard, data mining, boosted trees, neural networks, logistic regression, predictive models, classification models 1. Wprowadzenie Górotwór nienaruszony na dużych głębokościach znajduje się w stanie pierwotnej, stabilnej równowagi mechanicznej ukształtowanej przez duże ciśnienie pionowe oraz przez historię geologiczną i lokalne struktury tektoniczne. Eksploatacja górnicza narusza pierwotną równowagę mechaniczną górotworu, wywołuje jego przemieszczenia, spiętrzenia naprężeń i energii sprężystej. Dochodzi do lokalnych przekroczeń granicznego wytężenia, gwałtownych wyładowań energii sprężystej i propagacji fal sejsmicznych, czyli do wstrząsów, a niekiedy do tąpań, którym towarzyszy zniszczenie wyrobisk. * ) AGH w Krakowie, ** ) KWK Piast, Bieruń Zagrożenie tąpaniami należy do najpoważniejszych zagrożeń naturalnych towarzyszących eksploatacji górniczej. Metoda sejsmologii górniczej jest jedną z podstawowych metod oceny tego zagrożenia [1]. Opiera się ona na ciągłej rejestracji wstrząsów oraz obserwacji poziomu sejsmiczności indukowanej i jego zmian. Ze względu na swój związek z tąpaniami, sejsmiczność indukowana eksploatacją jest przedmiotem szczególnego zainteresowania geofizyków i górników. Do najważniejszych i najtrudniejszych problemów badawczych należą prognozowanie wielkości, czasu wystąpienia i lokalizacji wstrząsów oraz poziomu aktywności sejsmicznej w określonym rejonie i przedziale czasu, na podstawie sejsmologicznych danych historycznych.

Nr 3 PRZEGLĄD GÓRNICZY 19 Najczęściej prognozy dotyczą hazardu sejsmicznego, czyli prawdopodobieństwa wystąpienia wstrząsu o określonej wartości w określonym czasie i rejonie. Do jego szacowania stosowana jest między innymi zależność Gutenberga-Richtera i zmienność jej parametrów [2, 3], inne rozkłady prawdopodobieństwa [4, 5], nieparametryczne estyma tory rozkładów prawdopodobieństwa [6, 7]. Do prognoz wykorzys tuje się też opis fraktalny energii, czasu i położenia ognisk wstrząsów oraz zmienność wymiaru fraktalnego [8], przestrzenno- -czasową analizę skupień [9], zależność energii sejsmicznej od wydobycia [10, 11], rozpoznawanie wzorców [12], sieci neuronowe [13], metody generacji reguł [14], analizę szeregów czasowych z uwzględnieniem energii sejsmoakustycznej [15] i inne metody. Obszerne przeglądy stosowanych metod i osiągnięć w tym zakresie można znaleźć między innymi w publikacjach Gibowicza i Lasockiego [16], Gibowicza i Kijki [17] Dubińskiego i Konopki [18] i materiałach corocznych konferencji GIG Górnicze Zagrożenia Naturalne pod redakcją Kabiesza. Przedstawione w tym artykule podejście do prognozy poziomu sejsmiczności indukowanej to klasyfikacyjne podejście data mining 1 z wykorzystaniem analitycznych metod uczenia się maszyn (drzewa wzmacniane, sieci neuronowe) i technik statystycznych (regresja logistyczna). Nie prognozuje się tu hazardu sejsmicznego, lecz dobową sumę energii sejsmicznej wstrząsów przekształconą do zmiennej dwustanowej. Prognoza jest wynikiem zbudowania i wdrożenia modelu opisującego związki predyktorów i zmiennej prognozo wanej. Jest to nieparametryczny model oparty na danych, a nie model fizykalny. Predyktorami mogą być tylko te zmienne, których wartości dla okresu (t, t+dt) są w chwili t znane. W szczególności takimi zmiennymi są parametry ścian eksploatacyjnych, energia sejsmiczna w okresach poprzedzających, wydobycie w okresach poprzedzających i wydobycie planowane w okresie prognozy. 2. Istota data mining Według Cabeny [19] data mining to interdyscyplinarne podejście (do analizy danych) wykorzystujące techniki uczenia się maszyn, rozpoznawania wzorców, statystyki, baz danych oraz wizualizacji w celu wydobycia (nowych) informacji z dużych baz danych. Generalnie data mining jest definiowany jako proces, jako metodyka albo jako zbiór metod analizy danych [20, 21]. Cechy odróżniające klasyczne podejście statystyczne do analizy danych i podejście data mining mają charakter technologiczny i analityczny. Kryteria technologiczne są związane z zakresem przekształceń danych, sposobem ich przetwarzania, wdrożeniem i środowiskiem użytkownika. Najważniejszym chyba kryterium analitycznym jest sposób szacowania niepewności. Bardzo szeroko rozumiana statystyka pozwala wnioskować w warunkach niepewności, czyli z prawdopodobnych przesłanek wyciągać prawdopodobne wnioski, zapewniając przy tym ilościową ocenę niepewności. Klasyczne podejście statystyczne wykorzystuje aparat matematyczny do szacowania niepewności w sposób ścisły. Dzięki temu uogólnienie na całą populację jest ścisłe. Kosztem są rygorystyczne założenia i wymagania, które muszą spełniać dane, żeby takie uogólnienie było prawdziwe. 1) Nie ma ukształtowanego standardu tłumaczenia na język polski terminu data mining. Dla zapewnienia jednoznaczności użyto terminu angielskiego, stosowanego niekiedy w polskiej literaturze. Data mining posługuje sie danymi, które zwykle nie spełniają tych założeń teoretycznych i wymagań. Ocena niepewności nie jest ścisła, tylko empiryczna. Skutkiem tego uogólnienia na całą populację nie są ścisłe i mogą być oceniane tylko empirycznie, przez sprawdzenie. Empiryczna ocena niepewności w schemacie data mining opiera się na podziale zbioru danych na zbiór uczący, testowy i walidacyjny. Model jest budowany na zbiorze uczącym z udziałem testowego, a oceniany na zbiorze walidacyjnym (rys. 1). W klasycznym podejściu statystycznym zwykle z góry zakładana jest postać związku pomiędzy badanymi zmiennymi, na przykład na podstawie znanego mechanizmu łączącego badane zmienne lub doświadczenia. Budowa modelu polega tylko na estymacji jego parametrów. Modele data mining są zwykle modelami nieparametrycznymi, modelami czarnej skrzynki, budowanymi tylko na podstawie danych. Dlatego modele te zwykle nie mają bezpośredniej interpretacji i są przydatne w prognozowaniu, ale mało użyteczne w wyjaśnianiu. Do grupy metod, którymi posługuje się data mining należą niektóre techniki statystyczne, stosowane zgodnie z metodyką data mining, nie w klasycznym podejściu statystycznym. Rys. 1. Budowa modelu oraz ocena modelu i niepewności w metodyce data mining Fig. 1. Data mining model design and evaluation, including uncertainty evaluation 3. Sejsmiczność indukowana w partii XVI kopalni Piast Kopalnia Piast leży w południowo-wschodniej części GZW miedzy Tychami i Oświęcimiem, ma obszar górniczy o powierzchni 48 km 2, zatrudnia około 6 tys. pracowników i wydobywa ponad 4 mln ton węgla rocznie, tylko systemem ścianowym z zawałem stropu. Wybierane są pokłady serii 200 (warstwy łaziskie). Kopalnia Piast należy do kopalń o dużej aktywności sejsmicznej, ale o niskim zagrożeniu tąpaniami. Statystycznej analizie sejsmiczności indukowanej w kopalni Piast i w warstwach łaziskich poświęcono między innymi publikacje [22, 23]. Dział tąpań i kopalniana stacja geofizyki górniczej prowadzą całodobową, ciągłą obserwację wstrząsów. Takie obserwacje stanowią źródło danych wejściowych dla pokazanych dalej modeli predykcyjnych. Ze względu na tektonikę, w obszarze górniczym kopalni wydzielono 21 partii złoża. W partii XVI kopalni Piast eksploatowane były cztery pokłady: 205/4, 206/1-2, 207 i 209 zalegające na głębokości 500-800 m. Ze względu na brak danych o wydobyciu w pokładzie 206/1-2 analizę przeprowadzono dla pokładów 205/4, 207 i 209. Pokład 205/4 w partii XVI zalega na głębokości około 500 m i był wybrany w latach 1987-1991 sześcioma ścianami. Pokład 207 w partii XVI zalega na głębokości około 660 m i był eksploatowany w latach 2002-2005 trzema ścianami.

20 PRZEGLĄD GÓRNICZY 2014 Pokład 209 w partii XVI zalega na głębokości około 775 m. W okresie objętym analizą, czyli do marca 2011, eksploatowano w tym pokładzie dwie ściany. Na rysunku 2 pokazano liczbę wstrząsów, sumę energii sejsmicznej oraz wydobycie w pokładach partii XVI. Na rysunku 3 widać histogramy energii sejsmicznej wstrząsów, dobowej sumy energii sejsmicznej (dla dni ze wstrząsami) oraz dobowego wydobycia w partii XVI (dla dni z wydobyciem). Wszędzie uwzględniono wstrząsy o energii sejsmicznej 10 2 J i większej. Pominięto wstrząs regionalny o energii 3 10 9 J. Rys. 2. Liczba wstrząsów, suma energii sejsmicznej i wydobycie w partii XVI z podziałem na pokłady Fig. 2. Number of tremors, sum of seismic energy and output in sector XVI of the Piast coal mine, categorized by coal seams Rys. 3. Histogramy energii sejsmicznej wstrząsów, dobowej sumy energii sejsmicznej i dobowego wydobycia w partii XVI Fig. 3. Histograms of tremor seismic energy, daily sum of seismic energy, and daily output in sector XVI 4. Dane wejściowe i postawienie problemu predykcyjnego Dane wejściowe obejmują dane z katalogu wstrząsów oraz podstawowe dane dotyczące eksploatacji ścian prowadzonych w pokładach 205, 207 i 209 w partii XVI KWK Piast w latach 1987-2011 (rys. 4). Z katalogu wstrząsów mamy dane o około 2400 wstrząsach przypisanych ścianom eksploatowanym w partii XVI, a mianowicie: datę i czas wstrząsu, energię sejsmiczną, współrzędne hipocentrum i zmienne pochodne. Dane o wydobyciu w ścianach to przede wszystkim wydobycie dobowe i podstawowe parametry ścian: długość, wysokość, numer pokładu. W danych uwzględniono kilkudniowe przerwy w wydobyciu spowodowane dniami wolnymi od pracy. Nie uwzględniono okresów, w których eksploatacja w partii XVI nie była prowadzona i długich przerw technologicznych. W sumie dane obej- mują 2759 dni. Między nimi są dni, w których nie było wydobycia i dni, w których nie było wstrząsów. Eksploatacja w partii XVI była prowadzona kolejno pokładami. Jednocześnie wybierano jedną lub dwie sąsiadujące ściany w tym samym pokładzie. Jeżeli w jednym dniu eksploatacja była prowadzona w więcej niż w jednej ścianie to dalej przyjęto, że tego dnia energia sejsmiczna, wydobycie i długość ściany są sumami odpowiednio energii sejsmicznej, wydobycia i długości prowadzonych jednocześnie sąsiadujących ścian. Dane o wstrząsach i wydobyciu zostały zebrane w plikach o różnej strukturze, dlatego należało je zagregować dobowo i połączyć. Zadanie predykcyjne postawiono w sposób następujący: Czy w ciągu następnej doby suma energii wstrząsów w rejonie ściany będzie, czy nie będzie większa lub równa 10 5 J? (rys. 4 i 5)

Nr 3 PRZEGLĄD GÓRNICZY 21 Rys. 4. Schemat koncepcyjny budowy modelu predykcyjnego Fig. 4. Conceptual scheme of the predictive model design Rys. 5. Schemat koncepcyjny wdrożenia modelu predykcyjnego Fig. 5. Conceptual scheme of the predictive model implementation Jest to problem predykcyjny, klasyfikacyjny, do rozwiązania którego zastosowano tutaj podejście data mining. Dla tego zadania zdefiniowano zmienną zależną binarną równą 1, jeżeli suma energii sejsmicznej wyemitowanej w ciągu doby 10 5 J i równą 0, jeżeli energia jest mniejsza. Zmiennymi niezależnymi w modelu są zmienne opisujące: wydobycie dobowe, wydobycie dobowe w dniu poprzednim, długość ściany, wysokość ściany, część całkowita logarytmu sumy energii wstrząsów w dniu poprzednim, część całkowita logarytmu dobowej sumy energii wstrząsów dwa dni wcześniej, część całkowita logarytmu dobowej sumy energii wstrząsów trzy dni wcześniej. Zatem model składa się z siedmiu predyktorów ciągłych i binarnej zmiennej prognozowanej [24]. Wartość 10 5 J jest niekiedy traktowana jako granica energii wstrząsów wysokoenerge tycz nych. Tutaj przyjęto, że jest ona wartością progową dla zbudowanych modeli. Nie dokonuje się tu oceny skutków takiego przyjęcia ani powiązania tej wartości z występo wa niem wstrząsów o bardzo dużych energiach. Postawiony problem predykcyjny dotyczy dobowej sumy energii sejsmicznej w wąskim, 24-godzinnym przedziale prognozy. Nie odnosi się do prognozowania bardzo rzadkich wstrząsów o skrajnie dużych energiach. Charakter postawionego problemu i liczność zbioru danych są odpowiednie dla poprawnego zbudowania modeli klasyfikacyjnych każdą z trzech zastosowa nych metod oraz do ich oceny.

22 PRZEGLĄD GÓRNICZY 2014 5. Zastosowane metody analityczne i schemat budowy modeli Do budowy modelu predykcyjnego zastosowano trzy metody analityczne: regresję logistyczną, sieci neuronowe oraz drzewa wzmacniane. Wszystkie modele składowe zbudowano z zastosowaniem systemu Statistica Data Miner v.10 [25]. W regresji logistycznej modelem prawdopodobieństwa jest krzywa logistyczna. Dla budowanego modelu prognostycznego jest to model prawdopodobieństwa wystąpienia dobowej sumy energii sejsmicznej większej lub równej wartości progowej 10 5 J. gdzie P(Y=1) jest prawdopodobieństwem, że prognozowana zmienna przyjmie wartość 1, X 1 do X k to zmienne niezależne, a β 1 do β k to współczynniki równania regresji logistycznej. Kształt krzywej logistycznej przypomina wygładzony stopień, dlatego jest ona wykorzystywana w modelach klasyfikacyjnych. Regresja logistyczna to technika statystyczna, (1) ale dalej została zastosowana nie w klasycznym podejściu statystycznym, ale zgodnie z metodyką data mining. Druga zastosowana metoda analityczna to sieci neuronowe. Zastosowano sieć neuronową jednokierunkową tzw. perceptron wielowarstwowy. Spośród kilkuset półautomatycznie nauczonych i porównanych sieci wybrano sieć o następujących parametrach: 6 neuronów w jednej warstwie ukrytej (rys. 6), metodą Broydena, Fletchera, Goldfarba i Shanno z 17 epokami, funkcją błędów jest entropia, funkcjami aktywacji neuronów są tangens hiperboliczny dla warstwy ukrytej i Softmax dla warstwy wyjściowej [25, 26]. Trzecia zastosowana metoda analityczna to drzewa wzmacniane. Model drzew wzmacnianych składa się z wielu prostych drzew typu CART. Zbudowany na potrzeby tej analizy i wykorzystany dalej model składa się ze 132 drzew składowych, każde o 5 węzłach. Na rysunku 6 po prawej pokazano przykładowy schemat drzewa składowego. Schemat analityczny budowy i oceny modeli składowych oraz wdrożenia modelu końcowego przedstawiono na rysunku 7. Pierwszym etapem analizy jest wstępne rozpoznanie danych, wyczyszczenie danych, obsługa braków danych, zdefiniowanie zmiennej zależnej zgodnie z postawionym Rys. 6. Po lewej: Schemat zastosowanego perceptronu wielowarstwowego: 7 neuronów warstwy wejściowej, 6 ukrytej i 2 wyjściowej. a) Przykładowy schemat drzewa o 5 węzłach, jak drzewa składowe w modelu drzew wzmacnianych b) Fig. 6. Left side: The applied multilayer perceptron scheme: 7 input neurons, 6 neurons in the hidden layer, and 2 output neurons. Right side: Example of a component tree, out of the boosted trees model Rys. 7. Schemat analityczny budowy, oceny i wdrożenia modelu predykcyjnego Fig. 7. Analytical scheme of design, evaluation and implementation of the predictive model

Nr 3 PRZEGLĄD GÓRNICZY 23 problemem. Kluczową i wykonywaną zwykle w procesie wielokrotnej analizy i oceny modeli operacją jest wybór zmiennych niezależnych. Zbiór danych jest dzielony na zbiory uczący i testowy, na których budowane są modele i zbiór walidacyjny, na którym są oceniane. Modele zbudowano trzema całkowicie różnymi metodami analitycznymi, wszystkie na tej samej próbie uczącej. Zbudowane modele zostały następnie uruchomione na zbiorze walidacyjnym, ocenione oraz porównane. 6. Ocena modeli na próbie walidacyjnej Do empirycznej oceny modeli klasyfikacyjnych data mining służą między innymi wykresy przyrostu i wykresy ROC (Receiver Operating Characteristic) [27]. Wykresy przyrostu ilustrują w jakim stopniu zbudowany model jest lepszy od losowego wyboru przypadków. Na przykład dla modelu sieci neuronowych, jeżeli w prognozie wskazanych jest 10% wszystkich przypadków (rys. 8, oś pozioma) i wartość przyrostu wynosi 5,0 (rys. 8, oś pionowa, krzywa dla sieci neuronowych), to oznacza, że w prognozie jest 5 razy większy udział dni z dużą energią sejsmiczną niż przeciętnie w całym zbiorze obserwacji. Wykres ROC pozwala ocenić zdolność predykcyjną modeli i porównać modele na zbiorze walidacyjnym [28]. Moc predykcyjną wyraża się za pomocą pola powierzchni pod krzywą ROC (AUC). Pole powierzchni równe 1 oznacza model idealny, pole powierzchni równe 0,5 oznacza model losowy. Na rysunku 9 pokazano wykresy ROC dla trzech zbudowanych modeli. Największe pole pod krzywą ROC równe 0,847 ma model drzew wzmacnianych. Wartość 0,847 świadczy o tym, że model dobrze oddaje badane zjawisko. Warunek prognozy wybrano tak, aby udział wskazań dni z wysoką energią wyniósł 7%, co jest równoważne wskazaniu średnio około 26 dni z wysoką energią w roku. Zdecydowano, że model końcowy będzie najlepszym z trzech modeli dla zdefiniowanego w ten sposób warunku prognozy i wynikających z niego punktów odcięcia. Według tego kryterium najlepszy jest model drzew wzmacnianych (tab. 1, rys. 8). Na tej podstawie wybrano model drzew wzmacnianych jako końcowy model do wdrożenia. Model drzew wzmacnianych jest również najlepszym modelem według kryterium pola pod krzywą ROC, jak wspomniano wcześniej. W tablicy 1 oceniono i porównano modele otrzymane trzema metodami analitycznymi pod względem czterech kryteriów: skuteczności reguły decyzyjnej, trafności wskazań dni z wysoką energią, czułości oraz pola pod krzywą ROC. W tablicy 2 pokazano macierz klasyfikacji dla modelu końcowego drzew wzmacnianych. W kolumnach pokazano obserwacje, a w wierszach prognozy. Liczność próby walidacyjnej wynosiła 812, z tego 778 dni z sumą energii wstrząsów mniejszą od 10 5 J i 34 dni z większą lub równą tej wartości. Prognoza wskazała 57 dni z dużą energią, z czego 19 dni (33,3%) przewidziano poprawnie (true positive) i 38 dni błędnie (false positive). Prognoza wskazała 755 dni z małą energią, z czego 15 dni przewidziano błędnie (false negative) i 740 dni poprawnie (true negative). Spośród zaobserwowanych 34 dni z wysoką energią w prognozie wskazano 19 (55,9%). W sumie prognoza była trafna dla 93,5% dni, a błędna dla 6,5% dni. Inaczej mówiąc skuteczność reguły decyzyjnej (accuracy) wyniosła 93,5%, trafność prognozy dużych energii (PPV) wyniosła 33,3%, czułość prognozy (sensitivity) 55,9% a specyficzność prognozy (specificity) 95,1%. Wartość przyrostu dla prognozy (lift) wyniosła 8,0. Dla badanego problemu szczególnie pożądanymi cechami prognozy są wysoka czułość oraz wysoka trafność wskazań dni z dużą energią sejsmiczną (PPV). Zwiększaniu jednego z tych wskaźników towarzyszy zmniejszanie drugiego. Zbudowany model można wdrożyć, czyli zastosować do celów praktycznych dla nowych, niedostępnych w chwili budowy modelu danych. Nie są to dane uczące ani dane walidacyjne, tylko dane produkcyjne, ruchowe. Dotyczą one ściany, dla której sporządzana jest prognoza (rys. 5 i 7). Codziennie uzupełniana baza danych wstrząsów i wydobycia pozwala przy tak postawionym problemie predykcyjnym na wykonanie okresowej, codziennej prognozy na następną dobę. Rys. 8. Wykres przyrostu dla modeli drzew wzmacnianych, regresji logistycznej i sieci neuronowych Fig. 8. Lift chart for boosted trees, logistic regression, and neural network models

24 PRZEGLĄD GÓRNICZY 2014 Rys. 9. Wykres ROC dla modeli drzew wzmacnianych, regresji logistycznej i sieci neuronowych Fig. 9. ROC chart for boosted trees, logistic regression, and neural network models Tablica 1. Kryteria i wyniki oceny modeli. Table 1. Criteria and results of the model evaluation Skuteczność reguły decyzyjnej (accuracy), % Trafność wskazań wysokich energii (PPV), % Czułość (sensitivity), % Pole pod krzywą ROC (AUC) Drzewa wzmacniane 93,5 33,3 55,9 0,847 Regresja logistyczna 92,7 28,1 47,1 0,838 Sieci neuronowe 91,7 21,1 35,3 0,819 Tablica 2. Macierz klasyfikacji dla modelu końcowego drzew wzmacnianych. W kolumnach obserwacje dobowej sumy energii sejsmicznej, w wierszach prognoza. Table 2. Classification matrix for the final boosted trees model. Columns contain observations and rows predictions Prognoza wysokich energii Prognoza niskich energii Prognoza Suma Obserwacje wysokich energii Obserwacje niskich energii Obserwacje Suma Udział wysokich energii w sumie obserwacji, % Udział wysokich energii, % Udział niskich energii, % Udział Suma, % 19 38 57 33,3 55,9 4,9 7,0 15 740 755 2,0 44,1 95,1 93,0 34 778 812 4,2 100,0 100,0 100,0 7. Podsumowanie Pokazane w artykule podejście do prognozy poziomu sejsmiczności indukowanej to klasyfikacyjne podejście data mining z wykorzystaniem metod uczenia się maszyn i technik statystycznych. Prognozowana jest dobowa suma energii sejsmicznej w opisie klasyfikacyjnym, a nie hazard sejsmiczny. Oprócz danych z katalogu wstrząsów wykorzystywane są dane o wydobyciu i eksploatowanych ścianach. Nie zakłada się lokalnej stacjonarności ani niezależności wstrząsów. Rozkłady prawdo podo bieństwa energii i innych parametrów wstrząsu nie są badane i estymowane jak przy klasycznym, statystycznym szacowaniu hazardu sejsmicznego. Predykcja jest wynikiem zbudowania nieparametrycznego, opartego tylko na danych modelu opisującego nieliniowe związki predyktorów i zmiennej prognozo wanej, ale bez zakładania postaci tych związków. Podejście data mining daje możliwość budowy prognozy opartej na wielu predyktorach, nie narzuca ostrych warunków dla danych i reszt modelu, toleruje interakcje i zależność zmiennych, wymaga jednak dużej próby. Zamiast matematycznej, ścisłej oceny niepewności modelu statystycznego, której jakość zależy jednak silnie od spełnienia założeń teoretycznych, podejście data mining umożliwia empiryczną ocenę niepewności, wykonaną na próbie walidacyjnej po zbudowaniu modelu. Empirycznej ocenie na danych produkcyjnych powinny podlegać wszystkie modele predykcyjne aktywności sejsmicznej, również te oparte na klasycznym wnioskowaniu statystycznym.

Nr 3 PRZEGLĄD GÓRNICZY 25 Sejsmiczność indukowana eksploatacją jest silnie zależna od wielkości wydobycia, ale nie jest nią zdeterminowana. Krótkoterminowy związek wielkości wydobycia i sejsmiczności jest statystycznie istotny, ale w sensie fizykalnym pośredni i bardzo złożony. Zadanie prognostyczne sprowadzało się do odpowiedzi na pytanie, czy w ciągu następnych 24 godzin suma energii sejsmicznej wstrząsów w rejonie ściany będzie, czy nie będzie większa lub równa 10 5 J? Zbudowano trzy modele: regresji logistycznej, sieci neuronowych i drzew wzmacnianych. Najlepszym według przyjętego kryterium okazał się model drzew wzmacnianych. Model ten oceniono na zbiorze walidacyjnym. Spośród wszystkich obserwowanych dni z wysoką energią, w prognozie trafnie wskazano 55,9%. Spośród wszystkich prognozowanych dni z wysoką energią 33,3% wskazano trafnie. Skuteczność reguły decyzyjnej wyniosła 93,5%. Biorąc pod uwagę niezwykle złożony, silnie stochastyczny charakter zjawiska i wąski przedział czasowy prognozy, wartości te świadczą o dobrej zdolności predykcyjnej modelu. Wydaje się przy tym, że zarówno zdolność predykcyj ną, jak i użyteczność modelu można jeszcze poprawić poprzez modyfikację struktury danych, zestawu predyktorów i zmiennej prognozowanej. Ocena przydatności zastosowanej metodyki do konstrukcji bieżącej, krótkookresowej prognozy poziomu sejsmiczności indukowanej eksploatacją wymaga dalszych badań, ale przedstawione wyniki dla partii XVI kopalni Piast są zachęcające. Autorzy dziękują dyrekcji i pracownikom kopalni Piast za udostępnienie i pomoc w zebraniu danych niezbędnych do badań. Przygotowano w ramach badań 11.11.100.197 Literatura 1. Barański A., Drzewiecki J., Kabiesz J., Konopko W., Kornowski J., Krzyżowski A., Mutke G.: Zasady stosowania metody kompleksowej i metod szczegółowych oceny stanu zagrożenia tapaniami w kopalniach wegla kamiennego, GIG Seria Instrukcje nr 20, Katowice 2007. 2. Lasocki S.: Statistical prediction of strong mining tremors. Acta Geophys. Pol. 41, 1993, 197-234. 3. Gołda I., Kornowski J.: Zastosowanie rozkładu Gutenberga-Richtera do prognozy zagroże nia sejsmicznego, wraz z oceną jego niepewności. Górnictwo i Geologia 2011, t. 6, z. 3, s. 49-62. 4. Lasocki S.: Weibull distribution for time intervals between mining tremors. Publ. Inst. Geophys. Polish Acad. Sci. M-16(245), 1992, 241-260. 5. Idziak A., Sagan G., Zuberek W.M.: An analysis of frequency distributions of shocks from the Upper Silesian Coal Basis. Publ. Inst. Geophys., Pol. Acad. Sci, M-15 (235), 1991, 163-182. 6. Lasocki S., Orlecka-Sikora B.: Seismic hazard assessment under complex source size distribution of mining-induced seismicity. Tectonophysics 456, 2008, 28 37. 7. Orlecka-Sikora B.: Resampling methods for evaluating the uncertainty of the nonparametric magnitude distribution estimation in the Probabilistic Seismic Hazard Analysis. Tectonophysics 456, 2008, 38 51. 8. Idziak, A., Zuberek, W. M.: Fractal analysis of mining induced seismicity in the Upper Silesia Coal Basin. W: Mechanics of Jointed and Faulted Rocks (H. P. Rossmanith, ed.). Balkema, Rotterdam, 1995, pp. 679-682. 9. Leśniak A., Isakow Z.: Space-time clustering of seismic events and hazard assessment in the Zabrze-Bielszowice coal mine, Poland. International Journal of Rock Mechanics & Mining Sciences 46, 2009, 918 928. 10. Głowacka E.: Application of the extracted volume as a measure of deformation for the seismic hazard evaluation in mines. Tectonophysics 202, 1993, 285-290. 11. Stec K.: Statystyczna zależność aktywności sejsmicznej górotworu od parametrów eksploatacji w kopalniach Górnośląskiego Zagłębia Węglowego. Przegląd Górniczy 2008, t. 64, nr 4, s. 26-34 12. Marcak H.: The use of pattern recognition method for predicting of the rockbursts. W: R.R Young, (ed.) Rockbursts and Seismicity in Mines. Balkema, Rotterdam, 1993, pp. 222-226. 13. Kabiesz J.: Badanie kategoryzacji zagrożenia tąpaniami z wykorzystaniem sieci neuro nowych. Górnicze zagrożenia naturalne 2008. Prace naukowe GIG. Górnictwo i Środowisko nr 7, Katowice 2008. 14. Sikora M.: Induction and pruning of classification rules for prediction of microseismic hazards in coal mines. Expert Systems with Applications 38, 2011, 6748 6758 15. Kornowski J., Kurzeja J.: Krótkookresowa prognoza zagrożenia sejsmicznego w górnictwie. Główny Instytut Górnictwa, Katowice 2008. 16. Gibowicz S.J., Lasocki S.: Seismicity induced by mining: Ten years later. Adv. Geophys. 44, 2001, 39 181. 17. Gibowicz S. J., Kijko A.: An Introduction to Mining Seismology. Academic Press, San Diego, 1994. 18. Dubiński J., Konopko W.: Tąpania. Ocena, prognoza, zwalczanie. GIG Katowice 2000. 19. Cabena P., Hadjinian P., Stadler R., Verhees J., Zanasi A.: Discovering Data Mining: From Concept to Implementation. Prentice Hall, NY, 1998. 20. Larose D.T.: Metody i modele eksploracji danych. PWN, Warszawa, 2008. 21. Migut G., Harańczyk G.: Zastosowania statystyki i data mining w badaniach naukowych i inne materiały, StatSoft Polska, Kraków 2011. 22. Pilecka E., Kudela J., Pituła J.: Analiza wpływu przerw w eksploatacji ścian na zagrożenie sejsmiczne na przykładzie kopalni Piast. Przegląd Górniczy 2012, nr 7. 23. Gołda A., Gębiś T., Śladowski G., Moszko M.: Aktywność sejsmiczna w górotworze o niskich parametrach wytrzymałościowych na przykładzie KWK Ziemowit, Górnictwo i Geoinżynieria, 2009, R. 33, z. 1. 24. Jakubowski J.: Predictive model of seismic activity induced by mining, developed with data mining methods. Seminarium Komisji Geoinformatyki Polskiej Akademii Umiejętności, maj 2013. 25. StatSoft, Inc.: STATISTICA (data analysis software system), version 10, 2011 26. Tadeusiewicz R., Gąciarz T., Borowik B., Leper B.: Odkrywanie właściwości sieci neuronowych przy użyciu programów w języku C#. Wydawnictwo PAU, Kraków 2007. 27. Harańczyk G., Stępień M.: Ilustrowana sztuka podejmowania decyzji. Matematyka Społeczeństwo Nauczanie 2008, nr 41, s. 12-15 28. Bradley A. P.: The use of the area under the ROC curve in the evaluation of machine learning algorithms, Pattern Recognition, 30 (7), 1997, 1145-59.