MOŻLIWOŚCI ZASTOSOWANIA METOD DATA MINING DO ANALIZY ILOŚCI ŚCIEKÓW DOPŁYWAJĄCYCH DO OCZYSZCZALNI

Podobne dokumenty
PROGNOZOWANIE ISTOTNYCH INFORMACJI DLA RACJONALNEJ EKSPLOATACJI OCZYSZCZALNI ŚCIEKÓW

Projekt Sieci neuronowe

Temat: Sztuczne Sieci Neuronowe. Instrukcja do ćwiczeń przedmiotu INŻYNIERIA WIEDZY I SYSTEMY EKSPERTOWE

Podstawy Sztucznej Inteligencji (PSZT)

Sieci neuronowe w Statistica

PROGNOZOWANIE OSIADAŃ POWIERZCHNI TERENU PRZY UŻYCIU SIECI NEURONOWYCH**

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Sieci neuronowe w Statistica. Agnieszka Nowak - Brzezioska

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

PRÓBA ZASTOSOWANIA SIECI NEURONOWYCH DO PROGNOZOWANIA OSIADAŃ POWIERZCHNI TERENU POWSTAŁYCH NA SKUTEK EKSPLOATACJI GÓRNICZEJ**

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Zastosowania sieci neuronowych

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

ZASTOSOWANIE SIECI NEURONOWYCH DO OPTYMALIZACJI WARUNKÓW OBRÓBKI CIEPLNEJ STOPÓW Mg-Al

ALGORYTM RANDOM FOREST

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Wstęp do teorii sztucznej inteligencji Wykład III. Modele sieci neuronowych.

WYZNACZANIE WARTOŚCI PODSTAWOWYCH PARAMETRÓW TECHNICZNYCH NOWOCZESNYCH KOMBAJNÓW ZBOŻOWYCH PRZY UŻYCIU SSN

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2013/2014

Uczenie sieci typu MLP

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Systemy agentowe. Sieci neuronowe. Jędrzej Potoniec

Dopasowywanie modelu do danych

Systemy agentowe. Sieci neuronowe. Jędrzej Potoniec

ZASTOSOWANIE AUTORSKIEJ METODY WYZNACZANIA WARTOŚCI PARAMETRÓW NOWOCZESNYCH SYSTEMÓW TECHNICZNYCH DO PŁUGÓW I OPRYSKIWACZY POLOWYCH

Sztuczne Sieci Neuronowe. Wiktor Tracz Katedra Urządzania Lasu, Geomatyki i Ekonomiki Leśnictwa, Wydział Leśny SGGW

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Testowanie modeli predykcyjnych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Wprowadzenie do analizy korelacji i regresji

8. Neuron z ciągłą funkcją aktywacji.

PROGNOZOWANIE PORÓWNAWCZE ENERGII PROCESOWEJ ZESTAWÓW MASZYN DO ROBÓT ZIEMNYCH JAKO CZYNNIKA RYZYKA EMISYJNOŚCI CO2

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

PROGNOZOWANIE CENY OGÓRKA SZKLARNIOWEGO ZA POMOCĄ SIECI NEURONOWYCH

wiedzy Sieci neuronowe

Inteligentne systemy decyzyjne: Uczenie maszynowe sztuczne sieci neuronowe

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

APROKSYMACJA POZIOMU IMISJI NA STACJACH MONITORINGU POWIETRZA ZA POMOCĄ AUTONOMICZNYCH MODELI NEURONOWYCH

Rozpoznawanie obrazów

ALGORYTM UZUPEŁNIANIA BRAKUJĄCYCH DANYCH W ZBIORACH REJESTROWANYCH NA STACJACH MONITORINGU POWIETRZA

Wprowadzenie do teorii systemów ekspertowych

Zmienne zależne i niezależne

WYKORZYSTANIE SZTUCZNYCH SIECI NEURONOWYCH W PROGNOZOWANIU

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Prognozowanie zanieczyszczeń atmosferycznych przy użyciu sieci neuronowych

Sieci neuronowe do przetwarzania informacji / Stanisław Osowski. wyd. 3. Warszawa, Spis treści

Prognozowanie kierunku ruchu indeksów giełdowych na podstawie danych historycznych.

Widzenie komputerowe (computer vision)

Systemy uczące się Lab 4

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym, kontynuacja badań

Optymalizacja ciągła

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Metody Sztucznej Inteligencji II

Prof. Stanisław Jankowski

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Streszczenie. Słowa kluczowe: modele neuronowe, parametry ciągników rolniczych

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

PRZEWIDYWANIE RODZAJU USZKODZEŃ PRZEWODÓW WODOCIĄGOWYCH ZA POMOCĄ KLASYFIKUJĄCYCH SIECI NEURONOWYCH

MODELE DO ŚREDNIOTERMINOWEGO. Lidia Sukovata PROGNOZOWANIA POCZĄTKU GRADACJI BRUDNICY MNISZKI. Zakład Ochrony Lasu. Instytut Badawczy Leśnictwa

Rola innowacji w ocenie ryzyka eksploatacji obiektów hydrotechnicznych

Inteligentne systemy przeciw atakom sieciowym

Elementy inteligencji obliczeniowej

PROGNOZY METEOROLOGICZNE NA POTRZEBY OSŁONY HYDROLOGICZNEJ. Teresa Zawiślak Operacyjny Szef Meteorologicznej Osłony Kraju w IMGW-PIB

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Podstawy sztucznej inteligencji

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Literatura. Sztuczne sieci neuronowe. Przepływ informacji w systemie nerwowym. Budowa i działanie mózgu

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

Sieci neuronowe jako sposób na optymalizacje podejmowanych decyzji. Tomasz Karczyoski Wydział W-08 IZ

Uczenie sieci neuronowych i bayesowskich

SZTUCZNE SIECI NEURONOWE W MODELOWANIU PROCESÓW Z OGRANICZONYM ZBIOREM DANYCH W INŻYNIERII ROLNICZEJ

wiedzy Sieci neuronowe (c.d.)

Ekonometryczna analiza popytu na wodę

PROGNOZOWANIE Z WYKORZYSTANIEM UCZENIA MASZYN

Asocjacyjna reprezentacja danych i wnioskowanie

Transformacja wiedzy w budowie i eksploatacji maszyn

INSTYTUT METEOROLOGII I GOSPODARKI WODNEJ PAŃSTWOWY INSTYTUT BADAWCZY Oddział we Wrocławiu. Görlitz

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Katedra Zarządzania i Informatyki Politechnika Śląska

Analiza danych i data mining.

Agnieszka Nowak Brzezińska

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Diagnostyka procesów i jej zadania

Algorytmy sztucznej inteligencji

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Sieci neuronowe - dokumentacja projektu

MODELE LINIOWE. Dr Wioleta Drobik

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

6. Perceptron Rosenblatta

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Transkrypt:

MOŻLIWOŚCI ZASTOSOWANIA METOD DATA MINING DO ANALIZY ILOŚCI ŚCIEKÓW DOPŁYWAJĄCYCH DO OCZYSZCZALNI Monika Paluch-Puk, Instytut Inżynierii Środowiska, Uniwersytet Przyrodniczy we Wrocławiu W każdej oczyszczalni ścieków pojawiają się swoiste problemy, które wymagają indywidualnego podejścia. Wydobycie wiedzy z zebranych danych jest kluczowe dla wszelkich działań podejmowanych w sytuacjach krytycznych jak i doraźnych. Racjonalne zarządzanie oczyszczalniami ścieków wymaga prowadzenia określonych pomiarów. Ilość danych zwiększa się wraz ze wrastającą przepustowością oczyszczalni, a monitoring staje się integralną częścią nadzoru pracy i komputerowego systemu kontroli w oczyszczalniach o przepustowości powyżej 1000m 3 /d [Łomotowski, Szpindor 1999]. Nowo budowane lub modernizowane oczyszczalnie ścieków wyposaża się w systemy SCADA (ang. Supervisory Control and Data Acquisition) [Łomotowski in. 2008], służące m.in. do monitorowania, zbierania i gromadzenia informacji w przemysłowej bazie danych, sterowania nadzorczego procesem i wyświetlania stanów pracujących urządzeń [Ranganathan 2000; Smith 2009]. Brak wiedzy na temat celu, metod i narzędzi do opracowania zgromadzonych milionowych danych z tych systemów często powoduje, że nieuporządkowane dane są bezpowrotnie tracone lub archiwizowane bez jakiejkolwiek próby wydobycia z nich wiedzy. Potrzeba zastosowania metod data mining Bazy danych przechowywane w hurtowniach powinny być poddawane analizom z wykorzystaniem metod data mining, potocznie zwanych eksploracją danych, w celu odkrywania w nich wiedzy. Specyfika korzystania z eksploracji danych wynika z potrzeby prognozowania zachowania się kontrolowanych systemów technologicznych przy zmiennych warunkach ich eksploatacji lub określania pewnych wzorców [Hand i in. 2001]. Dodatkowo, w różnych dziedzinach, użytkowników eksploracji danych interesuje też odkrywanie anomalii, czyli zachowań lub działań wyjątkowych, odbiegających od stanów normalnych. Wykrywanie zmian i odchyleń jest stosowane obecnie do analizy dużych zbiorów wielowymiarowych danych, np. wykrywania anomalii zachowań klientów ubezpieczeniowych, kart kredytowych itp. W przypadku oczyszczalni ścieków takie anomalie również występują i są problemem wielu przedsiębiorstw wodno-kanalizacyjnych. Jak pokazuje praktyka, ilość ścieków dopływająca do oczyszczalni nie jest stała w czasie [Olsson, Newell 1999]. Obserwuje się cykliczne dobowe, tygodniowe i roczne zmiany ilości ścieków dopływających do oczyszczalni, związane z porą roku. W przypadku nieoczekiwanych zdarzeń, jak 40

` opady nawalne, roztopy, przepływ ścieków różni się znacznie w porównaniu do warunków normalnych [Brdyś i in. 2008]. W przypadku analizy danych uzyskanych z wielomiesięcznych obserwacji powinno dążyć się do wykrycia charakterystycznych przypadków dopływu ścieków do oczyszczalni [Wrembel 2000]. Dla eksploatatora oczyszczalni istotny jest zatem przypadek anomalia, a nie szereg danych przedstawiany często na wykresach ekranów synoptycznych. Ważne jest zatem, które dane wykorzystamy w analizie, co chcemy uzyskać, i jaką metodę data mining zastosować. Podczas eksploatacji oczyszczalni ścieków ważna jest możliwość przewidywania maksymalnej ilości ścieków dopływających do oczyszczalni na podstawie prognozowanej warstwy opadów atmosferycznych. Wyodrębnienie przypadków anomalii Wychodząc z założenia, że zagregowany dobowy dopływ ścieków do oczyszczalni ustalony dla danej chwili jest miarą stanu dopływu wód przypadkowych do systemu kanalizacyjnego oraz ilości ścieków bytowo-gospodarczych i przemysłowych, podjęto badania nad sprawdzeniem, czy w oparciu o tę zmienną losową i prognozowaną warstwę opadu atmosferycznego możliwe jest ustalenie dopływów maksymalnych do oczyszczalni. Warstwy prognozowanych opadów można w przyszłości uzyskiwać z komunikatów meteorologicznych. Prowadząc prace analityczne na uporządkowanych zbiorach danych, odszukano podzbiory, które charakteryzowały się następującymi cechami: Opady deszczu następowały po co najmniej dobowej przerwie od ostatniego opadu i charakteryzowały się dużą intensywnością. Czas trwania opadu deszczu wynosił od kilku minut do kilku godzin. Na podstawie danych pochodzących z monitoringu określano warstwę opadu w mm, wartość zagregowanej dobowej sumy dopływu ścieków do oczyszczalni Q p w chwili rozpoczęcia opadu deszczu i obserwowaną maksymalną zaobserwowaną zagregowaną dobową sumę dopływu Q max oraz czas, po którym wartość ta została zarejestrowana w odniesieniu do chwili rozpoczęcia deszczu. Czas ten nazwano czasem opóźnienia. Na rysunku 1 przedstawiono przykład takiego opadu. Przypadek ten w dalszej części pracy będzie nazywany opady krótkie intensywne. Opady deszczu charakteryzowały się różną intensywnością i czasem trwania od kilku do kilkudziesięciu godzin. W czasie tych opadów występowała zmienna intensywność deszczu oraz mogły się pojawiać przerwy w opadach dochodzące do kilku godzin. Opady te nazwano opadami długotrwałymi. 41

3350 3300 Sumy dobowe przepływu [m 3 ] 3250 3200 3150 3100 3050 3000 2950 1 35 69 137 205 273 341 409 477 545 613 681 749 817 103 171 239 307 375 443 511 579 647 715 783 Czas [min] Rys. 1. Przykład deszczu spełniający warunki klasyfikacji do zbioru opady krótkie intensywne; (So epizod deszczu; Q p zagregowana suma dobowa dopływu ścieków do oczyszczalni w chwili rozpoczęcia opadu; Qmax maksymalna zagregowana suma dobowa dopływu ścieków do oczyszczalni wywołana opadem deszczu). 4800 4600 4400 4200 Suma dobowa przepływu [m 3 ] 4000 3800 3600 3400 3200 3000 2800 2600 2400 2200 1 251 501 751 1001 1251 1501 1751 2001 2251 2501 2751 3001 126 376 626 876 1126 1376 1626 1876 2126 2376 2626 2876 Czas [min] Rys. 2. Przykład deszczu spełniający warunki klasyfikacji do zbioru opady długotrwałe; (So epizod deszczu; Q p zagregowana suma dobowa dopływu ścieków do oczyszczalni w chwili rozpoczęcia opadu; Qmax maksymalna zagregowana suma dobowa dopływu ścieków do oczyszczalni wywołana opadem deszczu). 42

` Metodyka poszukiwania modeli sztucznych sieci neuronowych Do analiz wykorzystano program STATISTICA. W pierwszym etapie zbiory danych Opady krótkie intensywne i Opady długotrwałe poddano 2000-krotnemu próbkowaniu z zastosowaniem automatycznego projektanta sieci, który jest wbudowany w pakiet STATISTICA. Poszukiwano sieci typu MLP z zastosowaniem metody regresji. Dla sieci o najlepszych wynikach predykcji obliczono wartości kryteriów informacyjnych Akaike (AIC) i Hurvich-Tsai (AIC c ), wykorzystując uzyskane wyniki predykcji i dane pochodzące z obserwacji. W drugim etapie badań testowano najlepsze architektury sieci typu MLP, przy czym dla danego typu sieci zbiory: uczący, testowy i walidacyjny obejmujące odpowiednio 50%, 25%, 25% ogólnej liczby przypadków analizowanego zbioru danych były ustalane na każdym etapie obliczeń w sposób losowy. Takie podejście miało wykazać, czy przyjęte zbiory do uczenia, testowania i walidacji mają wpływ na jakość prognoz. Przyjęto dla wszystkich obliczeń redukcję wag metodą Weigenda w celu uniknięcia przeuczenia sieci oraz metodę uczenia przy wykorzystaniu algorytmów: BFGS, najszybszego spadku oraz gradientów sprzężonych. W pracy zastosowano następujący sposób opisu architektury SSN: skrót nazwy sieci: perceptron wielowarstwowy MLP, liczba neuronów w warstwie wejściowej, liczba neuronów w warstwie ukrytej, liczba neuronów w warstwie wyjściowej oddzielone myślnikami. Dla przykładu oznaczenie MLP 4-2-1 oznacza sieć MLP z czterema neuronami wejściowymi, dwoma neuronami w warstwie ukrytej i jednym neuronem w warstwie wyjściowej. Poszukiwano architektury SSN typu MLP dla zbioru danych Opady krótkie intensywne i Opady długotrwałe dla schematu, gdzie wejściem do sieci były dane: Q p i warstwa opadu, a wyjściem Q max. Poszukiwanie SSN dla prognozowania Q max dla zbioru danych Opady krótkie intensywne W tabeli 1 przedstawiono architekturę 10 najlepszych SSN ustalonych dla zmiennych wejściowych Q p i warstwy opadu oraz zmiennej wejściowej Q max. Najlepsza SSN miała architekturę MLP 2-2-1 z logistyczną funkcją aktywacji dla neuronów warstwy ukrytej oraz funkcją aktywacji tangens hiperboliczny dla neuronu wyjściowego. Uzyskana struktura sieci jest bardzo prosta, gdyż warstwa ukryta składa się tylko z dwóch neuronów. Uzyskane współczynniki korelacji na etapie automatycznego poszukiwania sieci są dla zbioru uczącego, testowego i walidacyjnego wysokie i przyjmują wartości powyżej 0,95. Świadczy to o bardzo dobrym opisie analizowanego zbioru przypadków modelem czarnej skrzynki, jakim jest sztuczna sieć neuronowa. 43

Tabela 1. Zestawienie architektury SSN, współczynników korelacji uzyskanych dla zbioru uczącego, testowego i walidacyjnego oraz zastosowanych funkcji aktywacji neuronów w warstwie ukrytej i neuronów wyjściowych dla 10 najlepszych sieci typu MLP, uzyskanych z zastosowaniem Automatycznego Projektanta Sieci dla zbioru Opady krótkie intensywne przy zmiennych wejściowych Q p i warstwie opadu i zmiennej wyjściowej Q max. Nr sieci Architektura sieci MLP Uczenie Test Walidacja Funkcja aktywacji neuronów w warstwie ukrytej Funkcja aktywacji neuronu wyjściowego 1 2-2-1 0,9614 0,9655 0,9727 Wykł Lin 2 2-2-1 0,9623 0,9894 0,9752 Log Tanh 3 2-4-1 0,9699 0,9453 0,9725 Log Lin 4 2-2-1 0,9642 0,9651 0,9728 Tanh Log 5 2-2-1 0,9645 0,9784 0,9725 Log Tanh 6 2-3-1 0,9612 0,9794 0,9744 Log Tanh 7 2-4-1 0,9687 0,9566 0,9757 Tanh Log 8 2-4-1 0,9628 0,9856 0,9758 Log Tanh 9 2-2-1 0,9619 0,9864 0,9753 Log Tanh 10 2-2-1 0,9607 0,9829 0,9746 Log Tanh Wartości współczynników korelacji dla zbioru uczącego, testowego i walidacyjnego przyjmują zbliżone do siebie wartości. Można stąd wnioskować, że SSN nie wykazują przeuczenia i ustalony model na etapie uczenia odwzorowuje różne przypadki ze zbioru Opady krótkie intensywne. Dla potwierdzenia poprawności struktury MLP 2-2-1 przeprowadzono badania dla różnych losowo wybranych podzbiorów uczących, testujących i walidacyjnych, przy czym zastosowano różne algorytmy uczenia SSN. W tabeli 2 przedstawiono wyniki obliczeń AIC, AIC, SSE, R i R 2 dla 10 najlepszych sieci MLP 2-2-1, dla których zastosowano algorytm uczenia gradienty sprzężone, logistyczną funkcję aktywacji neuronów w warstwie ukrytej i tangens hiperboliczny dla neuronu wyjściowego, określone dla całego zbioru Opady krótkie intensywne. Zróżnicowanie wyników wartości kryteriów informacyjnych Akaike i Hurvich-Tsai, suma kwadratów błędów, współczynnika korelacji i determinacji wynika z faktu, że ustalanie wag synaptycznych, wartości progowych oraz wartości współczynników funkcji aktywacji poszczególnych sieci odbywało się na innych zbiorach danych. Pomimo tego uzyskane wyniki są zbliżone do siebie, przy czym przy zastosowaniu algorytmu uczenia SSN typu najszybszy spadek uzyskiwano najsłabsze wyniki testów informacyjnych oraz miar oceny dokładności prognoz: SSE, R i R 2. Algorytmy BSFG i gradientów sprężonych dawały porównywalne wyniki modeli SSN. 44

Maksymalny zagregowany dobowy dopływ ścieków do oczyszczalni [m 3 /d] ` Tabela 2. Ocena SSN typu MLP 2-1-1 z logistyczną funkcją aktywacji neuronów w warstwie ukrytej i tangensem hiperbolicznym jako funkcją aktywacji neuronu wyjściowego dla zbioru Opady krótkie intensywne przy zmiennych wejściowych Q p, warstwie opadu i zmiennej wyjściowej Q max uzyskane z zastosowaniem modułu Automatycznego Projektanta Sieci przy przeprowadzeniu obliczeń z użyciem algorytmu uczenia gradienty sprzężone. Nr sieci Architektura sieci AIC AICc SSE R R 2 1 MLP 2-3-1 288,88 15,06 1371464 0,9506 0,9037 2 MLP 2-3-1 287,23 15,00 1280150,6 0,9600 0,9216 3 MLP 2-3-1 296,79 15,39 1906736,1 0,9364 0,8769 4 MLP 2-3-1 297,79 15,44 1988335,5 0,9384 0,8806 5 MLP 2-3-1 292,92 15,23 1623184,1 0,9649 0,9311 6 MLP 2-2-1 285,44 13,68 1658743,2 0,9401 0,8839 7 MLP 2-2-1 281,43 13,51 1402999,3 0,9636 0,9286 8 MLP 2-2-1 280,77 13,49 1364969,3 0,9611 0,9236 9 MLP 2-2-1 309,27 14,67 4475892,2 0,9581 0,9179 10 MLP 2-2-1 277,38 13,35 1185487,4 0,9582 0,9182 11 MLP 2-1-1 270,60 12,56 1247331,9 0,9563 0,9146 12 MLP 2-1-1 283,82 13,12 2163500,4 0,9311 0,8669 13 MLP 2-1-1 280,73 12,99 1901729,1 0,9347 0,8737 14 MLP 2-1-1 281,39 13,01 1954924,5 0,9377 0,8793 15 MLP 2-1-1 279,68 12,94 1820431,5 0,9473 0,8974 6000,000 5000,000 4000,000 3000,000 2000,000 1000,000 0,000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Numer przypadku Przypadek (pogoda mokra krótka) Model (algorytm BFGS) Rys. 3. Porównanie wartości prognozowanych z wartościami wyliczonymi dla najlepszej sieci MLP 2-1-1 z logistyczną funkcją aktywacji neuronów w warstwie ukrytej i tangensem hiperbolicznym jako funkcją aktywacji neuronu wyjściowego dla zbioru Opady krótkie intensywne przy zmiennych wejściowych Q p, warstwie opadu i zmiennej wyjściowej Q max, ustalonej z zastosowaniem Automatycznego Projektanta Sieci z algorytmem uczenia typu gradienty sprzężone dla zbioru Opady krótkie intensywne. 45

Potwierdzają to wyniki przedstawione na rys. 3, który ilustruje uzyskane wyniki prognoz dla losowo wybranych 24 rekordów ze zbioru Opady krótkie intensywne. Przeprowadzone badania analityczne wskazują, że sztuczne sieci neuronowe o architekturze MLP 2-2-1 mogą być wykorzystywane w warunkach oczyszczalni ścieków w Lądku- Zdroju do prognozowania Q max w oparciu o zmienne wejściowe Q p i warstwę opadu dla opadów o krótkim czasie trwania i o dużej intensywności, następujących po co najmniej dobowym okresie bezopadowym. Poszukiwanie SSN do prognozowania Qmax dla zbioru danych Opady długotrwałe Analogicznie do badań przeprowadzonych dla zbioru Opady krótkie intensywne, przeprowadzono badania nad możliwością prognozowania Q max z wykorzystaniem sieci typu MLP z dwoma zmiennymi wejściowymi Q p i warstwą opadu. W tabeli 3 przedstawiono architekturę 10 najlepszych SSN. Najlepsza SSN miała architekturę MLP 2-2-1 z logistyczną funkcją aktywacji dla neuronów warstwy ukrytej oraz neuronu wyjściowego dla algorytmu BFGS. Podobnie jak dla danych Opady krótkie intensywne, najsłabsze wyniki testów informacyjnych oraz miar oceny dokładności prognoz uzyskano dla SSN, dla których wagi synaptyczne, wartości progowe oraz wartości współczynników funkcji aktywacji były ustalane z wykorzystaniem algorytmu najszybszego spadku (rys. 4). Tabela 3. Ocena SSN z logistyczną funkcją aktywacji neuronów w warstwie ukrytej i neuronu wyjściowego dla zbioru Opady długotrwałe przy zmiennych wejściowych Q p, warstwie opadu i zmiennej wyjściowej Q max, uzyskane z zastosowaniem modułu Automatycznego Projektanta Sieci przy przeprowadzeniu obliczeń z użyciem algorytmu uczenia typu BFGS. Nr sieci Architektura sieci AIC AICc SSE R R 2 1 MLP 2-3-1 480,38 16,32 31502912 0,958822 0,919339 2 MLP 2-3-1 480,7 16,33 31814409 0,93996 0,883524 3 MLP 2-3-1 481,26 16,35 32354252 0,920796 0,847866 4 MLP 2-3-1 405,79 14,06 3285904 0,952286 0,906848 5 MLP 2-3-1 481,95 16,37 33037469 0,898462 0,807235 6 MLP 2-2-1 473,47 15,71 32557615 0,926827 0,859008 7 MLP 2-2-1 473,32 15,71 32415976 0,933411 0,871257 8 MLP 2-2-1 473,51 15,71 32596327 0,959686 0,920997 9 MLP 2-2-1 473,6 15,72 32691177 0,959567 0,920769 10 MLP 2-2-1 473,12 15,7 32219140 0,954366 0,910815 11 MLP 2-1-1 466,12 15,28 33204867 0,921328 0,848846 12 MLP 2-1-1 465,96 15,28 33045009 0,954713 0,911477 13 MLP 2-1-1 464,7 15,24 31808576 0,942178 0,887699 14 MLP 2-1-1 465,11 15,25 32208725 0,946873 0,896569 15 MLP 2-1-1 389,01 12,95 3209289 0,952095 0,906484 46

Maksymalny zagregowany dobowy dopływ ścieków do oczyszczalni [m 3 /d] ` 6000 5000 4000 3000 2000 1000 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 Numer przypadku Przypadek (pogoda mokra długa) Model (algorytm najszybszy spadek) Rys. 4. Porównanie wartości prognozowanych z wartościami wyliczonymi dla najlepszej sieci MLP 2-1-1 z logistyczną funkcją aktywacji neuronów w warstwie ukrytej i neuronu wyjściowego dla zbioru Opady długotrwałe przy zmiennych wejściowych Q p, warstwie opadu dla zmiennej wyjściowej Q max, ustalonej z zastosowaniem Automatycznego Projektanta Sieci z algorytmem uczenia typu najszybszy spadek. Przeprowadzone analizy wykazały, że sztuczne sieci neuronowe o prostej architekturze MLP 2-1-1 mogą być wykorzystywane do prognozowania przyrostu zagregowanej sumy dobowej dopływu ścieków do oczyszczalni, w oparciu o wartość zagregowanej sumy dobowej dopływu ścieków do oczyszczalni w chwili rozpoczęcia opadu Q p oraz prognozowaną warstwę opadu, zarówno dla intensywnych opadów deszczu o krótkim czasie (opady burzowe), jak również opadów długotrwałych, które mogą się utrzymywać nawet przez kilka kolejnych dni. Opady długotrwałe są wynikiem przejścia frontów atmosferycznych i powstają z chmur warstwowych deszczowych Nimbostratus lub chmur średnio warstwowych Altostratus. Wielkość opadów atmosferycznych jest zróżnicowana na obszarze Polski. Zwiększoną ilość opadów długotrwałych stwierdza się w rejonach górskich. Czynnikiem wpływającym na wartość Q max są również spadki terenu oraz typ i struktura systemu kanalizacyjnego. Wyniki uzyskane w warunkach systemu kanalizacyjnego Lądka- Zdroju są zachęcające do przeprowadzenia podobnych eksperymentów na innych systemach kanalizacyjnych w Polsce, lecz na podstawie przeprowadzonych badań nie można wyciągać daleko idących uogólnień. Podsumowanie Metody data mining, polegające na efektywnym znajdowaniu nieznanych dotychczas zależności i związków pomiędzy danymi przygotowanymi w procesie transformacji, powinny być stosowane na oczyszczalniach ścieków. Wykorzystując użyteczne narzędzia 47

do analizy danych, takie jak sztuczne sieci neuronowe w programie STATISTICA, można prognozować istotne parametry dla operatora oczyszczalni. Można w ten sposób między innymi dokonywać predykcji wzrostu ilości ścieków dopływających do oczyszczalni, wywołanych intensywnymi opadami deszczu o krótkim czasie trwania oraz opadami długotrwałymi, trwającymi nawet kilka dni Należy podkreślić, że dynamika zmian złożonych procesów powoduje, że nie jest możliwe stworzenie idealnego, uniwersalnego modelu, podobnie jak w finansach - modelu, który zapewniłby stały dostęp gotówki, w medycynie - niezawodną diagnozę. Jednak mając wiedzę pochodzącą z procesu odkrywania wiedzy, można powiedzieć, że dany stan wydarzy się w 90 procentach, co jest zawsze lepsze, niż brak tej wiedzy. Literatura 1. Łomotowski J., Szpindor A. (1999): Nowoczesne systemy oczyszczania ścieków. Arkady, Warszawa. 2. Łomotowski J., Licznar P., Paluch M. (2008): Wybrane zagadnienia z zastosowania systemów eksperckich na oczyszczalniach ścieków Instal Teoria i praktyka w instalacjach (279), 60-63. 3. Ranganathan G. (2000): 3 steps to Automated Treatment. Pollution Engineering, 40-42. 4. Smith F. (2009): The power of real time Intelligence. Engineer Control, 28-32. 5. Hand D.J., Mannila H., Smyth P. (2001): Principles of Data Mining (Adaptive Computation and Machine Learning. The MIT Press. 6. Olsson G., Newell B. (1999): Wastewater treatment systems. Modelling, diagnosis and control. IWA Publishing, London. 7. Brdyś M.A., Grochowski M., Gmiński T., Konarczak K., Drewa M.(2008): Hierarchical predictive control of integrated wastewater systems. Control Engineering Practice, Vol. 16, Issue 6, 751 767. 8. Wrembel R. (2000): Perspektywy (views) w systemach baz danych: aktualny stan technologii. Materiały VI Konferencji Użytkowników i Deweloperów Oracle-PLOUG- Systemy informatyczne w dobie Internetu, Zakopane. 48