MOŻLIWOŚCI ZASTOSOWANIA METOD DATA MINING DO ANALIZY ILOŚCI ŚCIEKÓW DOPŁYWAJĄCYCH DO OCZYSZCZALNI Monika Paluch-Puk, Instytut Inżynierii Środowiska, Uniwersytet Przyrodniczy we Wrocławiu W każdej oczyszczalni ścieków pojawiają się swoiste problemy, które wymagają indywidualnego podejścia. Wydobycie wiedzy z zebranych danych jest kluczowe dla wszelkich działań podejmowanych w sytuacjach krytycznych jak i doraźnych. Racjonalne zarządzanie oczyszczalniami ścieków wymaga prowadzenia określonych pomiarów. Ilość danych zwiększa się wraz ze wrastającą przepustowością oczyszczalni, a monitoring staje się integralną częścią nadzoru pracy i komputerowego systemu kontroli w oczyszczalniach o przepustowości powyżej 1000m 3 /d [Łomotowski, Szpindor 1999]. Nowo budowane lub modernizowane oczyszczalnie ścieków wyposaża się w systemy SCADA (ang. Supervisory Control and Data Acquisition) [Łomotowski in. 2008], służące m.in. do monitorowania, zbierania i gromadzenia informacji w przemysłowej bazie danych, sterowania nadzorczego procesem i wyświetlania stanów pracujących urządzeń [Ranganathan 2000; Smith 2009]. Brak wiedzy na temat celu, metod i narzędzi do opracowania zgromadzonych milionowych danych z tych systemów często powoduje, że nieuporządkowane dane są bezpowrotnie tracone lub archiwizowane bez jakiejkolwiek próby wydobycia z nich wiedzy. Potrzeba zastosowania metod data mining Bazy danych przechowywane w hurtowniach powinny być poddawane analizom z wykorzystaniem metod data mining, potocznie zwanych eksploracją danych, w celu odkrywania w nich wiedzy. Specyfika korzystania z eksploracji danych wynika z potrzeby prognozowania zachowania się kontrolowanych systemów technologicznych przy zmiennych warunkach ich eksploatacji lub określania pewnych wzorców [Hand i in. 2001]. Dodatkowo, w różnych dziedzinach, użytkowników eksploracji danych interesuje też odkrywanie anomalii, czyli zachowań lub działań wyjątkowych, odbiegających od stanów normalnych. Wykrywanie zmian i odchyleń jest stosowane obecnie do analizy dużych zbiorów wielowymiarowych danych, np. wykrywania anomalii zachowań klientów ubezpieczeniowych, kart kredytowych itp. W przypadku oczyszczalni ścieków takie anomalie również występują i są problemem wielu przedsiębiorstw wodno-kanalizacyjnych. Jak pokazuje praktyka, ilość ścieków dopływająca do oczyszczalni nie jest stała w czasie [Olsson, Newell 1999]. Obserwuje się cykliczne dobowe, tygodniowe i roczne zmiany ilości ścieków dopływających do oczyszczalni, związane z porą roku. W przypadku nieoczekiwanych zdarzeń, jak 40
` opady nawalne, roztopy, przepływ ścieków różni się znacznie w porównaniu do warunków normalnych [Brdyś i in. 2008]. W przypadku analizy danych uzyskanych z wielomiesięcznych obserwacji powinno dążyć się do wykrycia charakterystycznych przypadków dopływu ścieków do oczyszczalni [Wrembel 2000]. Dla eksploatatora oczyszczalni istotny jest zatem przypadek anomalia, a nie szereg danych przedstawiany często na wykresach ekranów synoptycznych. Ważne jest zatem, które dane wykorzystamy w analizie, co chcemy uzyskać, i jaką metodę data mining zastosować. Podczas eksploatacji oczyszczalni ścieków ważna jest możliwość przewidywania maksymalnej ilości ścieków dopływających do oczyszczalni na podstawie prognozowanej warstwy opadów atmosferycznych. Wyodrębnienie przypadków anomalii Wychodząc z założenia, że zagregowany dobowy dopływ ścieków do oczyszczalni ustalony dla danej chwili jest miarą stanu dopływu wód przypadkowych do systemu kanalizacyjnego oraz ilości ścieków bytowo-gospodarczych i przemysłowych, podjęto badania nad sprawdzeniem, czy w oparciu o tę zmienną losową i prognozowaną warstwę opadu atmosferycznego możliwe jest ustalenie dopływów maksymalnych do oczyszczalni. Warstwy prognozowanych opadów można w przyszłości uzyskiwać z komunikatów meteorologicznych. Prowadząc prace analityczne na uporządkowanych zbiorach danych, odszukano podzbiory, które charakteryzowały się następującymi cechami: Opady deszczu następowały po co najmniej dobowej przerwie od ostatniego opadu i charakteryzowały się dużą intensywnością. Czas trwania opadu deszczu wynosił od kilku minut do kilku godzin. Na podstawie danych pochodzących z monitoringu określano warstwę opadu w mm, wartość zagregowanej dobowej sumy dopływu ścieków do oczyszczalni Q p w chwili rozpoczęcia opadu deszczu i obserwowaną maksymalną zaobserwowaną zagregowaną dobową sumę dopływu Q max oraz czas, po którym wartość ta została zarejestrowana w odniesieniu do chwili rozpoczęcia deszczu. Czas ten nazwano czasem opóźnienia. Na rysunku 1 przedstawiono przykład takiego opadu. Przypadek ten w dalszej części pracy będzie nazywany opady krótkie intensywne. Opady deszczu charakteryzowały się różną intensywnością i czasem trwania od kilku do kilkudziesięciu godzin. W czasie tych opadów występowała zmienna intensywność deszczu oraz mogły się pojawiać przerwy w opadach dochodzące do kilku godzin. Opady te nazwano opadami długotrwałymi. 41
3350 3300 Sumy dobowe przepływu [m 3 ] 3250 3200 3150 3100 3050 3000 2950 1 35 69 137 205 273 341 409 477 545 613 681 749 817 103 171 239 307 375 443 511 579 647 715 783 Czas [min] Rys. 1. Przykład deszczu spełniający warunki klasyfikacji do zbioru opady krótkie intensywne; (So epizod deszczu; Q p zagregowana suma dobowa dopływu ścieków do oczyszczalni w chwili rozpoczęcia opadu; Qmax maksymalna zagregowana suma dobowa dopływu ścieków do oczyszczalni wywołana opadem deszczu). 4800 4600 4400 4200 Suma dobowa przepływu [m 3 ] 4000 3800 3600 3400 3200 3000 2800 2600 2400 2200 1 251 501 751 1001 1251 1501 1751 2001 2251 2501 2751 3001 126 376 626 876 1126 1376 1626 1876 2126 2376 2626 2876 Czas [min] Rys. 2. Przykład deszczu spełniający warunki klasyfikacji do zbioru opady długotrwałe; (So epizod deszczu; Q p zagregowana suma dobowa dopływu ścieków do oczyszczalni w chwili rozpoczęcia opadu; Qmax maksymalna zagregowana suma dobowa dopływu ścieków do oczyszczalni wywołana opadem deszczu). 42
` Metodyka poszukiwania modeli sztucznych sieci neuronowych Do analiz wykorzystano program STATISTICA. W pierwszym etapie zbiory danych Opady krótkie intensywne i Opady długotrwałe poddano 2000-krotnemu próbkowaniu z zastosowaniem automatycznego projektanta sieci, który jest wbudowany w pakiet STATISTICA. Poszukiwano sieci typu MLP z zastosowaniem metody regresji. Dla sieci o najlepszych wynikach predykcji obliczono wartości kryteriów informacyjnych Akaike (AIC) i Hurvich-Tsai (AIC c ), wykorzystując uzyskane wyniki predykcji i dane pochodzące z obserwacji. W drugim etapie badań testowano najlepsze architektury sieci typu MLP, przy czym dla danego typu sieci zbiory: uczący, testowy i walidacyjny obejmujące odpowiednio 50%, 25%, 25% ogólnej liczby przypadków analizowanego zbioru danych były ustalane na każdym etapie obliczeń w sposób losowy. Takie podejście miało wykazać, czy przyjęte zbiory do uczenia, testowania i walidacji mają wpływ na jakość prognoz. Przyjęto dla wszystkich obliczeń redukcję wag metodą Weigenda w celu uniknięcia przeuczenia sieci oraz metodę uczenia przy wykorzystaniu algorytmów: BFGS, najszybszego spadku oraz gradientów sprzężonych. W pracy zastosowano następujący sposób opisu architektury SSN: skrót nazwy sieci: perceptron wielowarstwowy MLP, liczba neuronów w warstwie wejściowej, liczba neuronów w warstwie ukrytej, liczba neuronów w warstwie wyjściowej oddzielone myślnikami. Dla przykładu oznaczenie MLP 4-2-1 oznacza sieć MLP z czterema neuronami wejściowymi, dwoma neuronami w warstwie ukrytej i jednym neuronem w warstwie wyjściowej. Poszukiwano architektury SSN typu MLP dla zbioru danych Opady krótkie intensywne i Opady długotrwałe dla schematu, gdzie wejściem do sieci były dane: Q p i warstwa opadu, a wyjściem Q max. Poszukiwanie SSN dla prognozowania Q max dla zbioru danych Opady krótkie intensywne W tabeli 1 przedstawiono architekturę 10 najlepszych SSN ustalonych dla zmiennych wejściowych Q p i warstwy opadu oraz zmiennej wejściowej Q max. Najlepsza SSN miała architekturę MLP 2-2-1 z logistyczną funkcją aktywacji dla neuronów warstwy ukrytej oraz funkcją aktywacji tangens hiperboliczny dla neuronu wyjściowego. Uzyskana struktura sieci jest bardzo prosta, gdyż warstwa ukryta składa się tylko z dwóch neuronów. Uzyskane współczynniki korelacji na etapie automatycznego poszukiwania sieci są dla zbioru uczącego, testowego i walidacyjnego wysokie i przyjmują wartości powyżej 0,95. Świadczy to o bardzo dobrym opisie analizowanego zbioru przypadków modelem czarnej skrzynki, jakim jest sztuczna sieć neuronowa. 43
Tabela 1. Zestawienie architektury SSN, współczynników korelacji uzyskanych dla zbioru uczącego, testowego i walidacyjnego oraz zastosowanych funkcji aktywacji neuronów w warstwie ukrytej i neuronów wyjściowych dla 10 najlepszych sieci typu MLP, uzyskanych z zastosowaniem Automatycznego Projektanta Sieci dla zbioru Opady krótkie intensywne przy zmiennych wejściowych Q p i warstwie opadu i zmiennej wyjściowej Q max. Nr sieci Architektura sieci MLP Uczenie Test Walidacja Funkcja aktywacji neuronów w warstwie ukrytej Funkcja aktywacji neuronu wyjściowego 1 2-2-1 0,9614 0,9655 0,9727 Wykł Lin 2 2-2-1 0,9623 0,9894 0,9752 Log Tanh 3 2-4-1 0,9699 0,9453 0,9725 Log Lin 4 2-2-1 0,9642 0,9651 0,9728 Tanh Log 5 2-2-1 0,9645 0,9784 0,9725 Log Tanh 6 2-3-1 0,9612 0,9794 0,9744 Log Tanh 7 2-4-1 0,9687 0,9566 0,9757 Tanh Log 8 2-4-1 0,9628 0,9856 0,9758 Log Tanh 9 2-2-1 0,9619 0,9864 0,9753 Log Tanh 10 2-2-1 0,9607 0,9829 0,9746 Log Tanh Wartości współczynników korelacji dla zbioru uczącego, testowego i walidacyjnego przyjmują zbliżone do siebie wartości. Można stąd wnioskować, że SSN nie wykazują przeuczenia i ustalony model na etapie uczenia odwzorowuje różne przypadki ze zbioru Opady krótkie intensywne. Dla potwierdzenia poprawności struktury MLP 2-2-1 przeprowadzono badania dla różnych losowo wybranych podzbiorów uczących, testujących i walidacyjnych, przy czym zastosowano różne algorytmy uczenia SSN. W tabeli 2 przedstawiono wyniki obliczeń AIC, AIC, SSE, R i R 2 dla 10 najlepszych sieci MLP 2-2-1, dla których zastosowano algorytm uczenia gradienty sprzężone, logistyczną funkcję aktywacji neuronów w warstwie ukrytej i tangens hiperboliczny dla neuronu wyjściowego, określone dla całego zbioru Opady krótkie intensywne. Zróżnicowanie wyników wartości kryteriów informacyjnych Akaike i Hurvich-Tsai, suma kwadratów błędów, współczynnika korelacji i determinacji wynika z faktu, że ustalanie wag synaptycznych, wartości progowych oraz wartości współczynników funkcji aktywacji poszczególnych sieci odbywało się na innych zbiorach danych. Pomimo tego uzyskane wyniki są zbliżone do siebie, przy czym przy zastosowaniu algorytmu uczenia SSN typu najszybszy spadek uzyskiwano najsłabsze wyniki testów informacyjnych oraz miar oceny dokładności prognoz: SSE, R i R 2. Algorytmy BSFG i gradientów sprężonych dawały porównywalne wyniki modeli SSN. 44
Maksymalny zagregowany dobowy dopływ ścieków do oczyszczalni [m 3 /d] ` Tabela 2. Ocena SSN typu MLP 2-1-1 z logistyczną funkcją aktywacji neuronów w warstwie ukrytej i tangensem hiperbolicznym jako funkcją aktywacji neuronu wyjściowego dla zbioru Opady krótkie intensywne przy zmiennych wejściowych Q p, warstwie opadu i zmiennej wyjściowej Q max uzyskane z zastosowaniem modułu Automatycznego Projektanta Sieci przy przeprowadzeniu obliczeń z użyciem algorytmu uczenia gradienty sprzężone. Nr sieci Architektura sieci AIC AICc SSE R R 2 1 MLP 2-3-1 288,88 15,06 1371464 0,9506 0,9037 2 MLP 2-3-1 287,23 15,00 1280150,6 0,9600 0,9216 3 MLP 2-3-1 296,79 15,39 1906736,1 0,9364 0,8769 4 MLP 2-3-1 297,79 15,44 1988335,5 0,9384 0,8806 5 MLP 2-3-1 292,92 15,23 1623184,1 0,9649 0,9311 6 MLP 2-2-1 285,44 13,68 1658743,2 0,9401 0,8839 7 MLP 2-2-1 281,43 13,51 1402999,3 0,9636 0,9286 8 MLP 2-2-1 280,77 13,49 1364969,3 0,9611 0,9236 9 MLP 2-2-1 309,27 14,67 4475892,2 0,9581 0,9179 10 MLP 2-2-1 277,38 13,35 1185487,4 0,9582 0,9182 11 MLP 2-1-1 270,60 12,56 1247331,9 0,9563 0,9146 12 MLP 2-1-1 283,82 13,12 2163500,4 0,9311 0,8669 13 MLP 2-1-1 280,73 12,99 1901729,1 0,9347 0,8737 14 MLP 2-1-1 281,39 13,01 1954924,5 0,9377 0,8793 15 MLP 2-1-1 279,68 12,94 1820431,5 0,9473 0,8974 6000,000 5000,000 4000,000 3000,000 2000,000 1000,000 0,000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Numer przypadku Przypadek (pogoda mokra krótka) Model (algorytm BFGS) Rys. 3. Porównanie wartości prognozowanych z wartościami wyliczonymi dla najlepszej sieci MLP 2-1-1 z logistyczną funkcją aktywacji neuronów w warstwie ukrytej i tangensem hiperbolicznym jako funkcją aktywacji neuronu wyjściowego dla zbioru Opady krótkie intensywne przy zmiennych wejściowych Q p, warstwie opadu i zmiennej wyjściowej Q max, ustalonej z zastosowaniem Automatycznego Projektanta Sieci z algorytmem uczenia typu gradienty sprzężone dla zbioru Opady krótkie intensywne. 45
Potwierdzają to wyniki przedstawione na rys. 3, który ilustruje uzyskane wyniki prognoz dla losowo wybranych 24 rekordów ze zbioru Opady krótkie intensywne. Przeprowadzone badania analityczne wskazują, że sztuczne sieci neuronowe o architekturze MLP 2-2-1 mogą być wykorzystywane w warunkach oczyszczalni ścieków w Lądku- Zdroju do prognozowania Q max w oparciu o zmienne wejściowe Q p i warstwę opadu dla opadów o krótkim czasie trwania i o dużej intensywności, następujących po co najmniej dobowym okresie bezopadowym. Poszukiwanie SSN do prognozowania Qmax dla zbioru danych Opady długotrwałe Analogicznie do badań przeprowadzonych dla zbioru Opady krótkie intensywne, przeprowadzono badania nad możliwością prognozowania Q max z wykorzystaniem sieci typu MLP z dwoma zmiennymi wejściowymi Q p i warstwą opadu. W tabeli 3 przedstawiono architekturę 10 najlepszych SSN. Najlepsza SSN miała architekturę MLP 2-2-1 z logistyczną funkcją aktywacji dla neuronów warstwy ukrytej oraz neuronu wyjściowego dla algorytmu BFGS. Podobnie jak dla danych Opady krótkie intensywne, najsłabsze wyniki testów informacyjnych oraz miar oceny dokładności prognoz uzyskano dla SSN, dla których wagi synaptyczne, wartości progowe oraz wartości współczynników funkcji aktywacji były ustalane z wykorzystaniem algorytmu najszybszego spadku (rys. 4). Tabela 3. Ocena SSN z logistyczną funkcją aktywacji neuronów w warstwie ukrytej i neuronu wyjściowego dla zbioru Opady długotrwałe przy zmiennych wejściowych Q p, warstwie opadu i zmiennej wyjściowej Q max, uzyskane z zastosowaniem modułu Automatycznego Projektanta Sieci przy przeprowadzeniu obliczeń z użyciem algorytmu uczenia typu BFGS. Nr sieci Architektura sieci AIC AICc SSE R R 2 1 MLP 2-3-1 480,38 16,32 31502912 0,958822 0,919339 2 MLP 2-3-1 480,7 16,33 31814409 0,93996 0,883524 3 MLP 2-3-1 481,26 16,35 32354252 0,920796 0,847866 4 MLP 2-3-1 405,79 14,06 3285904 0,952286 0,906848 5 MLP 2-3-1 481,95 16,37 33037469 0,898462 0,807235 6 MLP 2-2-1 473,47 15,71 32557615 0,926827 0,859008 7 MLP 2-2-1 473,32 15,71 32415976 0,933411 0,871257 8 MLP 2-2-1 473,51 15,71 32596327 0,959686 0,920997 9 MLP 2-2-1 473,6 15,72 32691177 0,959567 0,920769 10 MLP 2-2-1 473,12 15,7 32219140 0,954366 0,910815 11 MLP 2-1-1 466,12 15,28 33204867 0,921328 0,848846 12 MLP 2-1-1 465,96 15,28 33045009 0,954713 0,911477 13 MLP 2-1-1 464,7 15,24 31808576 0,942178 0,887699 14 MLP 2-1-1 465,11 15,25 32208725 0,946873 0,896569 15 MLP 2-1-1 389,01 12,95 3209289 0,952095 0,906484 46
Maksymalny zagregowany dobowy dopływ ścieków do oczyszczalni [m 3 /d] ` 6000 5000 4000 3000 2000 1000 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 Numer przypadku Przypadek (pogoda mokra długa) Model (algorytm najszybszy spadek) Rys. 4. Porównanie wartości prognozowanych z wartościami wyliczonymi dla najlepszej sieci MLP 2-1-1 z logistyczną funkcją aktywacji neuronów w warstwie ukrytej i neuronu wyjściowego dla zbioru Opady długotrwałe przy zmiennych wejściowych Q p, warstwie opadu dla zmiennej wyjściowej Q max, ustalonej z zastosowaniem Automatycznego Projektanta Sieci z algorytmem uczenia typu najszybszy spadek. Przeprowadzone analizy wykazały, że sztuczne sieci neuronowe o prostej architekturze MLP 2-1-1 mogą być wykorzystywane do prognozowania przyrostu zagregowanej sumy dobowej dopływu ścieków do oczyszczalni, w oparciu o wartość zagregowanej sumy dobowej dopływu ścieków do oczyszczalni w chwili rozpoczęcia opadu Q p oraz prognozowaną warstwę opadu, zarówno dla intensywnych opadów deszczu o krótkim czasie (opady burzowe), jak również opadów długotrwałych, które mogą się utrzymywać nawet przez kilka kolejnych dni. Opady długotrwałe są wynikiem przejścia frontów atmosferycznych i powstają z chmur warstwowych deszczowych Nimbostratus lub chmur średnio warstwowych Altostratus. Wielkość opadów atmosferycznych jest zróżnicowana na obszarze Polski. Zwiększoną ilość opadów długotrwałych stwierdza się w rejonach górskich. Czynnikiem wpływającym na wartość Q max są również spadki terenu oraz typ i struktura systemu kanalizacyjnego. Wyniki uzyskane w warunkach systemu kanalizacyjnego Lądka- Zdroju są zachęcające do przeprowadzenia podobnych eksperymentów na innych systemach kanalizacyjnych w Polsce, lecz na podstawie przeprowadzonych badań nie można wyciągać daleko idących uogólnień. Podsumowanie Metody data mining, polegające na efektywnym znajdowaniu nieznanych dotychczas zależności i związków pomiędzy danymi przygotowanymi w procesie transformacji, powinny być stosowane na oczyszczalniach ścieków. Wykorzystując użyteczne narzędzia 47
do analizy danych, takie jak sztuczne sieci neuronowe w programie STATISTICA, można prognozować istotne parametry dla operatora oczyszczalni. Można w ten sposób między innymi dokonywać predykcji wzrostu ilości ścieków dopływających do oczyszczalni, wywołanych intensywnymi opadami deszczu o krótkim czasie trwania oraz opadami długotrwałymi, trwającymi nawet kilka dni Należy podkreślić, że dynamika zmian złożonych procesów powoduje, że nie jest możliwe stworzenie idealnego, uniwersalnego modelu, podobnie jak w finansach - modelu, który zapewniłby stały dostęp gotówki, w medycynie - niezawodną diagnozę. Jednak mając wiedzę pochodzącą z procesu odkrywania wiedzy, można powiedzieć, że dany stan wydarzy się w 90 procentach, co jest zawsze lepsze, niż brak tej wiedzy. Literatura 1. Łomotowski J., Szpindor A. (1999): Nowoczesne systemy oczyszczania ścieków. Arkady, Warszawa. 2. Łomotowski J., Licznar P., Paluch M. (2008): Wybrane zagadnienia z zastosowania systemów eksperckich na oczyszczalniach ścieków Instal Teoria i praktyka w instalacjach (279), 60-63. 3. Ranganathan G. (2000): 3 steps to Automated Treatment. Pollution Engineering, 40-42. 4. Smith F. (2009): The power of real time Intelligence. Engineer Control, 28-32. 5. Hand D.J., Mannila H., Smyth P. (2001): Principles of Data Mining (Adaptive Computation and Machine Learning. The MIT Press. 6. Olsson G., Newell B. (1999): Wastewater treatment systems. Modelling, diagnosis and control. IWA Publishing, London. 7. Brdyś M.A., Grochowski M., Gmiński T., Konarczak K., Drewa M.(2008): Hierarchical predictive control of integrated wastewater systems. Control Engineering Practice, Vol. 16, Issue 6, 751 767. 8. Wrembel R. (2000): Perspektywy (views) w systemach baz danych: aktualny stan technologii. Materiały VI Konferencji Użytkowników i Deweloperów Oracle-PLOUG- Systemy informatyczne w dobie Internetu, Zakopane. 48