ALGORYTM UZUPEŁNIANIA BRAKUJĄCYCH DANYCH W ZBIORACH REJESTROWANYCH NA STACJACH MONITORINGU POWIETRZA

Podobne dokumenty
APROKSYMACJA POZIOMU IMISJI NA STACJACH MONITORINGU POWIETRZA ZA POMOCĄ AUTONOMICZNYCH MODELI NEURONOWYCH

Porównanie dokładności różnych metod predykcji stężeń zanieczyszczeń powietrza

Aproksymacja stężeń zanieczyszczeń powietrza za pomocą neuronowych modeli szeregów czasowych

Prognozowanie zanieczyszczeń atmosferycznych przy użyciu sieci neuronowych

Modelowanie glikemii w procesie insulinoterapii

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)

Aproksymacja funkcji a regresja symboliczna

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Sprawozdanie z badań jakości powietrza wykonanych ambulansem pomiarowym w Tarnowskich Górach w dzielnicy Osada Jana w dniach

Wykład z Technologii Informacyjnych. Piotr Mika

Po co w ogóle prognozujemy?

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Małgorzata Paciorek, Agnieszka Bemka EKOMETRIA Sp. z o.o. Gdańsk

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Prognoza jakości powietrza na obszarze pogranicza polsko-czeskiego dla rejonu Śląska i Moraw

Całkowanie numeryczne

Projekt Sieci neuronowe

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2018 CZĘŚĆ PRAKTYCZNA. Arkusz zawiera informacje prawnie chronione do momentu rozpoczęcia egzaminu

SYSTEM OCENY JAKOŚCI POWIETRZA W WOJEWÓDZTWIE MAZOWIECKIM. Wydział Monitoringu Środowiska WIOŚ w Warszawie

SIEĆ NEURONOWA DO OCENY KOŃCOWEJ PRZEDSIĘWZIĘCIA (PROJEKTU)

TOM I Aglomeracja warszawska

PL B1. ABB Sp. z o.o.,warszawa,pl BUP 26/01. Michał Orkisz,Kraków,PL Mirosław Bistroń,Jarosław,PL

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Strona znajduje się w archiwum.

ANALIZA DYNAMIKI DOCHODU KRAJOWEGO BRUTTO

Dopasowywanie modelu do danych

EGZAMIN POTWIERDZAJĄCY KWALIFIKACJE W ZAWODZIE Rok 2018 CZĘŚĆ PRAKTYCZNA

Wojewódzki Inspektorat Ochrony Środowiska w Warszawie

PROGNOZOWANIE CENY OGÓRKA SZKLARNIOWEGO ZA POMOCĄ SIECI NEURONOWYCH

O 2 O 1. Temat: Wyznaczenie przyspieszenia ziemskiego za pomocą wahadła rewersyjnego

Funkcjonalność Gospodarka Paliwowa w ramach systemu AutoControl 2.0

AM1 85,1 98, ,2 AM2 97,8 97, ,3 AM3 97,3 98,7-96,0 97,0 98,6 AM5 96,5 92,2 96,0-95,5 96,2 AM8 98,5 97,8 98,4-96,1 98,7

Powiat starachowicki

System pomiarów jakości powietrza w Polsce

WYKORZYSTANIE MODELI AUTOREGRESJI DO PROGNOZOWANIA SZEREGU CZASOWEGO ZWIĄZANEGO ZE SPRZEDAŻĄ ASORTYMENTU HUTNICZEGO

5.3. Sporządzenie modelu rozprzestrzeniania się zanieczyszczeń.

ALGORYTM RANDOM FOREST

Model referencyjny doboru narzędzi Open Source dla zarządzania wymaganiami

INTERPOLACJA I APROKSYMACJA FUNKCJI

SYSTEM OCENY JAKOŚCI POWIETRZA W WOJEWÓDZTWIE MAZOWIECKIM. Wydział Monitoringu Środowiska WIOŚ w Warszawie Luty 2010 r.

Jakość powietrza na obszarze podkarpackich uzdrowisk w 2016 roku w zakresie SO 2, NO 2, PM10, PM2,5, b(a)p i ozonu SPIS TREŚCI WPROWADZENIE...

Β2 - DETEKTOR SCYNTYLACYJNY POZYCYJNIE CZUŁY

INSTYTUT METEOROLOGII I GOSPODARKI WODNEJ PAŃSTWOWY INSTYTUT BADAWCZY Oddział we Wrocławiu. Görlitz

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

2. Wykonanie zarządzenia powierza się Sekretarzowi Miasta. 3. Zarządzenie wchodzi w życie z dniem podpisania.

Zielona Góra, październik 2015r.

SYSTEM OCENY JAKOŚCI POWIETRZA W WOJEWÓDZTWIE MAZOWIECKIM. Wojewódzki Inspektorat Ochrony Środowiska w Warszawie Dominik Kobus

Analiza metod prognozowania kursów akcji

Roczne oceny jakości powietrza w woj. mazowieckim Wojewódzki Inspektorat Ochrony Środowiska w Warszawie

ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH

ANALIZA STANU JAKOŚCI POWIETRZA W WOJEWÓDZTWIE ZACHODNIOPOMORSKIM NA TLE KRAJU WG OCENY JAKOŚCI POWIETRZA ZA 2015 ROK

Analiza korelacyjna i regresyjna

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Znaczenie modelowania w ocenie jakości powietrza. EKOMETRIA Sp. z o.o.

ZADANIA OPTYMALIZCJI BEZ OGRANICZEŃ

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Prognoza terminu sadzenia rozsady sałaty w uprawach szklarniowych. Janusz Górczyński, Jolanta Kobryń, Wojciech Zieliński

Modelowanie bilansu energetycznego pomieszczeń (1)

Przetwarzanie równoległe

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Monitorowanie i Diagnostyka w Systemach Sterowania na studiach II stopnia specjalności: Systemy Sterowania i Podejmowania Decyzji

OCENA JAKOŚCI POWIETRZA W WOJEWÓDZTWIE PODKARPACKIM ZA ROK 2014

Algorytm. Krótka historia algorytmów

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Przegląd metod optymalizacji wielowymiarowej. Funkcja testowa. Funkcja testowa. Notes. Notes. Notes. Notes. Tomasz M. Gwizdałła

Zintegrowane środowisko informatyczne jako narzędzie modelowania i dynamicznej wizualizacji jakości powietrza. Tomasz Kochanowski

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Wpływ zawilgocenia ściany zewnętrznej budynku mieszkalnego na rozkład temperatur wewnętrznych

Algorytmy genetyczne w interpolacji wielomianowej

Druga pięcioletnia ocena jakości powietrza z określeniem wymagań w zakresie systemu ocen rocznych dla SO 2, NO 2, NO x, PM10, Pb, CO, C 6 H 6 i O 3

MODELOWANIE POŁĄCZEŃ TYPU SWORZEŃ OTWÓR ZA POMOCĄ MES BEZ UŻYCIA ANALIZY KONTAKTOWEJ

Systemy zapewnienia jakości w laboratorium badawczym i pomiarowym

Wojny Coli - czyli siła reklamy na rynku oligopolicznym

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Założenia monitoringu innowacyjności województwa mazowieckiego

Komentarz technik ochrony środowiska 311[24]-01 Czerwiec 2009

Ekonometria. Regresja liniowa, współczynnik zmienności, współczynnik korelacji liniowej, współczynnik korelacji wielorakiej

OCENA JAKOŚCI POWIETRZA W WOJEWÓDZTWIE PODKARPACKIM ZA ROK 2014

REPREZENTACJA LICZBY, BŁĘDY, ALGORYTMY W OBLICZENIACH

Ekonometria. Dobór postaci analitycznej, transformacja liniowa i estymacja modelu KMNK. Paweł Cibis 23 marca 2006

Opracowanie wykonane na zlecenie członków Stowarzyszenia Mieszkańców Odolan w lutym 2018 polegało na:

Jastrzębie-Zdrój, grudzień 2018 r.

ZAŁĄCZNIK NR 3 RAPORT (QA/QC) Z OCENY JAKOŚCI OBLICZEŃ ROZPRZESTRZENIANIA SIĘ ZANIECZYSZCZEŃ ZA ROK 2015

Sylabus. Zaawansowana analiza danych eksperymentalnych Advanced analysis of experimental data

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Czym oddychamy? Adam Ludwikowski Mazowiecki Wojewódzki Inspektor Ochrony Środowiska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Sprawozdanie z wykonania umowy WFOŚ/D/357/254/2013

KONTROLING I MONITOROWANIE ZLECEŃ PRODUKCYJNYCH W HYBRYDOWYM SYSTEMIE PLANOWANIA PRODUKCJI

TARGI POL-ECO-SYSTEM 2015 strefa ograniczania niskiej emisji października 2015 r., Poznań

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2016/2017

WOJEWÓDZKI PROGRAM MONITORINGU ŚRODOWISKA NA ROK 2008

Rys 1 Schemat modelu masa- sprężyna- tłumik

WYKŁAD 9 METODY ZMIENNEJ METRYKI

Kielce miasto na prawach powiatu

Transkrypt:

ALGORYTM UZUPEŁNIANIA BRAKUJĄCYCH DANYCH W ZBIORACH REJESTROWANYCH NA STACJACH MONITORINGU POWIETRZA Szymon HOFFMAN, Rafał JASIŃSKI Politechnika Częstochowska Wydział Inżynierii i Ochrony Środowiska ul. Dąbrowskiego 69, 42-200 Częstochowa szymon@is.pcz.czest.pl; raphael@is.pcz.czeast.pl STRESZCZENIE W pracy zaproponowano algorytm uzupełniania brakujących danych w zbiorach rejestrowanych na stacjach automatycznego monitoringu powietrza. Wykorzystano wyniki analizy możliwości zastosowania różnych metod modelowania w celu aproksymacji stężeń zanieczyszczeń powietrza. Porównano dokładność kilku różnych grup modeli, w tym modeli szeregów czasowych, modeli regresji wielowymiarowej i zwykłych modeli interpolacyjnych. W algorytmie przyjęto zasadę minimalizacji błędów modelowania, którą zrealizowano poprzez specyficzne traktowanie różnych serii pomiarowych. Zastosowane w algorytmie metody predykcji uzależniono od rodzaju zanieczyszczenia, od długości luki pomiarowej i od miejsca modelowanego przypadku w luce pomiarowej, a także od dostępności innych danych, wymaganych w używanych metodach aproksymacji. 1. Wprowadzenie Obowiązujące przepisy prawne dopuszczają możliwość wykorzystania modelowania w celu uzupełnienia brakujących danych w systemach monitoringu powietrza, gdy kompletność serii pomiarowych stężeń poszczególnych zanieczyszczeń jest zbyt mała [1]. Dane pomiarowe gromadzone w systemach monitoringu powietrza są cennym źródłem wiedzy o zależnościach między mierzonymi parametrami. Ukryta w tych danych wiedza o zależnościach regresyjnych i autoregresyjnych umożliwia aproksymację brakujących przypadków [2-3]. Metody modelowania stosowane do predykcji brakujących danych powinny zapewniać możliwie największą dokładność, aby wygenerowane dane były najbardziej zbliżone do rzeczywistości. W zależności od charakteru luki pomiarowej różne metody aproksymacji mogą okazać się najdokładniejsze. W obrębie samej luki pomiarowej do poszczególnych przypadków można rekomendować różne metody predykcji. Przedstawioną w pracy koncepcję algorytmu uzupełniania brakujących danych w zbiorach rejestrowanych na stacjach automatycznego monitoringu powietrza oparto o dwie podstawowe zasady: pierwszą - korzystania wyłącznie z tzw. modeli autonomicznych i drugą zapewnienia maksymalnej dokładności predykcji. Modele autonomiczne wykorzystują wiedzę ukrytą w danych historycznych, zgromadzonych w rozpatrywanym systemie monitoringu powietrza [3]. Do predykcji nie są potrzebne żadne dane pochodzące spoza systemu. Algorytm wykorzystujący modele autonomiczne jest możliwy do utworzenia w każdym dowolnym systemie automatycznego monitoringu powietrza. Jednak w poszczególnych stacjach monitoringu dokładność rozpatrywanych metod modelowania może być różna. Dlatego dedykowana dla określonej stacji pomiarowej propozycja algorytmu powinna być poprzedzona wstępną analizą dokładności możliwych do stosowania metod modelowania. 163

Celem pracy jest prezentacja algorytmu uzupełniania brakujących danych przygotowanego dla stacji monitoringu powietrza w Radomiu. Stacja ta została potraktowana jako element sieci monitoringu powietrza obejmującej w sumie 8 stacji pomiarowych. Do konstrukcji algorytmu wykorzystano rekomendacje wynikające z analizy dokładności modelowania różnymi metodami. 2. Metodyka Ogólna koncepcja algorytmu polega na całościowym przeprowadzeniu procesu uzupełniania brakujących danych w bazie danych zawierającej zarówno zanieczyszczeń jak i pozostałych parametrów meteorologicznych, przy czym uzupełniane są tylko zanieczyszczeń. Proces odbywa się automatycznie i polega na wyszukiwaniu przez program luki danych, zakwalifikowaniu jej do odpowiedniej klasy, analizie dostępności potencjalnych danych wejściowych i doborze optymalnej metody modelowania (rys. 1). W miarę działania algorytmu luki danych zastępowane są wartościami modelowanymi w porządku chronologicznym. KLASYFIKACJA LUKI POMIAROWEJ ANALIZA DOSTĘPNOSCI POTENCJALNYCH DANYCH WEJŚCIOWYCH WYBÓR OPTYMALNEJ METODY MODELOWANIA PRZEPROWADZENIE MODELOWANIA WPROWADZENIE MODELOWANYCH WARTOŚCI DO ZBIORU DANYCH Rys. 1. Schemat ideowy algorytmu uzupełniania brakujących danych, wg [4]. Algorytm uzupełniania brakujących danych w seriach czasowych rejestrowanych na stacjach monitoringu powietrza w Radomiu utworzono korzystając z koncepcji ogólnej algorytmu (rys. 1) i z opublikowanych w pracy [4] wyników analizy błędów różnych metod aproksymacji i wynikających z tej analizy rekomendacji najdokładniejszych modeli. Wykorzystano dane zarejestrowane w latach 2004-2008 na ośmiu stacjach monitoringu powietrza, działających w różnych miejscowościach województw łódzkiego i mazowieckiego. Porównano dokładność kilku różnych grup modeli w tym modeli szeregów czasowych (), modeli regresji wielowymiarowej bazujących wyłącznie na danych rejestrowanych na stacji w Radomiu (), modeli regresji wielowymiarowej wykorzystującej dane pochodzące z innych stacji monitoringu (E) i zwykłych modeli interpolacyjnych (). Dokładniejszy opis tych modeli znajduje się w pracy [4]. Wykonana analiza wykazała, że dla każdego z zanieczyszczeń powietrza należy 164

rekomendować inne metody predykcji, ponieważ występują duże różnice w możliwościach modelowania poszczególnych zanieczyszczeń powietrza. Wykazano również, że dla różnych fragmentów luki pomiarowej powinny być rekomendowane odmienne metody aproksymacji. Uwzględniając wyniki tej analizy zaproponowano szczegółowy algorytm sekwencyjnego uzupełniania brakujących danych, który może być stosowany do dowolnego przypadku luki pomiarowej występującej w danych monitoringowych pochodzących ze stacji w Radomiu. Jako kryterium dokładności predykcji przyjęto wartość współczynnika korelacji. 3. Wyniki Na rys. 2 porównano błędy predykcji chwilowych stężeń zanieczyszczeń powietrza zarejestrowanych na stacji monitoringu powietrza Radom. Na oddzielnych wykresach dla O 3, NO, NO 2, CO, SO 2, PM 10 przedstawiono krzywe ilustrujące zmienność wartości współczynnika korelacji r w miarę wydłużania horyzontu prognozy od 1 do 48 godzin. Na każdym wykresie porównano wyniki dla modeli wygenerowanych 4 różnymi technikami predykcji, w tym dla modeli szeregów czasowych (), dla nieliniowych model regresji wielowymiarowej (), dla nieliniowych modeli regresji wielowymiarowej eksplorujących dane pochodzące z sąsiednich stacji monitoringu (E) i dla liniowych modeli interpolacyjnych (). E E O 3 NO E E NO 2 CO E E SO 2 PM 10 165

Rys. 2. Zmiany wartości współczynnika korelacji dla różnych metod predykcji w zależności od horyzontu prognozy w luce pomiarowej. Zaproponowany w pracy algorytm został przygotowany w oparciu o porównania wartości błędu modelowania dla kolejnych przypadków w ewentualnych lukach pomiarowych poszczególnych serii czasowych. Na przykład, analiza wykresów prowadzi do wniosku, że dla krótkich horyzontów prognozy najdokładniejszymi modelami aproksymacyjnymi wszystkich zanieczyszczeń, z wyjątkiem NO, są modele interpolacyjne. Jednak dokładność tych modeli szybko maleje w miarę wydłużania horyzontów prognozy. Oznacza to, że tylko dla krótkich luk pomiarowych modele są dokładniejsze od pozostałych. Algorytm został tak zbudowany, że wstępnie klasyfikuje długość luki pomiarowej w serii czasowej, a następnie w zależności od klasyfikacji narzuca określony (najdokładniejszy) sposób modelowania. W krótkich lukach pomiarowych do predykcji stosowane będą modele, natomiast w dłuższych modele szeregów czasowych albo modele regresyjne, w zależności od przypadku i od rodzaju zanieczyszczenia. Schemat algorytmu przedstawiono na rys. 3. Algorytm podzielono na VI etapów, uwzględniających różne długości luki pomiarowej. W I etapie następuje wyszukiwanie i uzupełnianie w bazie danych luk pomiarowych o długości jednej komórki dla kolejnych zmiennych. W etapie II następuje wyszukiwanie i uzupełnianie w kolejnych seriach czasowych stężeń luk pomiarowych o długości dwóch i trzech komórek. W etapach III, IV i V następuje wyszukiwanie i uzupełnianie luk pomiarowych o długości odpowiednio czterech, pięciu i sześciu komórek. W omawianych etapach I-V wszystkie modelowane wartości są automatycznie wpisywane w luki pomiarowe i w następnych krokach traktowane przez algorytm tak jak inne wartości rzeczywiste. W VI etapie następuje wyszukiwanie i modelowanie brakujących poszczególnych zanieczyszczeń, występujących w lukach o długości większej niż sześć komórek. W tym etapie wartości modelowane zachowywane są w pamięci i dopiero po zakończeniu całego etapu są wpisywane we właściwe miejsce w lukach pomiarowych. W etapach I-V algorytmu wprowadzono dodatkowy moduł wyboru modelu predykcyjnego vs.. ten jest zdefiniowanym algorytmem wyboru metody uzupełniania brakujących danych dla luki pomiarowej w serii czasowej, dla której rekomendowany jest nieliniowy model regresji wielowymiarowej, pod warunkiem, że w wierszu danej komórki luki pomiarowej pozostałych danych. W przypadku, nie spełnienia tego warunku, moduł vs. zarekomenduje liniowy model interpolacyjny. Dla każdej kolejnej brakującej wartości luki zostanie sprawdzony warunek kompletności pozostałych wartości w wierszu, i w zależności od spełnienia tego warunku, zarekomendowany jeden z dwóch modeli lub. W etapie VI zastosowano moduły algorytmów postępowania, dedykowane dla każdego zanieczyszczenia indywidualnie: O 3 >6, NO >6, NO 2 >6, CO >6 i SO 2 >6, PM 10 >6. W modułach tych nie uwzględniono liniowego modelu interpolacyjnego, z uwagi na jego niską dokładność modelowania dla dłuższych luk pomiarowych. y pozwalają wykorzystać do modelowania początkowych i końcowych komórek w luce pomiarowej modele szeregów czasowych w zależności od spełnienia warunku kompletności 24 wartości danej zmiennej przed lub po luce danych. Ten warunek jest wymagany modelach szeregów czasowych, w których wykorzystuje się 24 wartości opóźnione jako zmienne wejściowe. Przykładową procedurę postępowania w ramach modułu dedykowanego dla poszczególnych zanieczyszczeń przedstawiono na przykładzie modułu NO 2 >6, dedykowanego dla uzupełnienia brakujących NO 2. 166

Start Etap I jednej komórki Etap I o długości jednej komórki 1 komórki? Przejdź do Etapu II O 3, NO 2, CO, SO 2 lub PM 10? wartość modelem vs. Etap II dwóch lub trzech komórek Etap II o długości dwóch lub trzech komórek 2 lub 3 komórek? Przejdź do Etapu III O 3, NO 2, SO 2 lub PM 10? wartość modelem vs. Etap III czterech komórek Etap III o długości czterech komórek 4 komórek? Przejdź do Etapu IV O 3, SO 2 lub PM 10? wartość modelem vs. A 167

A Etap IV pięciu komórek Etap IV o długości pięciu komórek 5 komórek? Przejdź do Etapu V O 3 lub SO 2? wartość modelem vs. Etap V sześciu komórek Etap V o długości sześciu komórek 6 komórek? Przejdź do Etapu IV SO 2? wartość modelem vs. B 168

Zapisz uzupełnione wartości w pamięci B Etap VI większej niż sześć komórek Etap VI o długości większej niż sześć komórek. O 3? >6 komórek? O 3>6 NO>6 NO? NO 2>6 NO 2? CO>6 CO? SO 2? SO 2>6 PM 10>6 Stop Rys. 3. Przykład algorytmu postępowania z niekompletną bazą danych z automatycznej stacji monitoringu powietrza, w celu uzupełnienia brakujących O 3, NO, NO 2, CO, SO 2, PM 10. Na rys. 4 przedstawiono moduł NO 2 >6 - zdefiniowany algorytm wyboru metody uzupełniania brakujących NO 2, dla luki o długości większej niż 6 komórek. Algorytm modułu opracowano w oparciu o wartości współczynnika korelacji Pearsona r, jako wskaźnika oceny błędu modelowania dla stężeń NO 2 (rys. 2). Dla pierwszego kroku prognozy najdokładniejszą metodą modelowania jest liniowy model szeregów czasowych. W przypadku spełnienia warunku występowania kompletu 24 wartości danej zmiennej przed luką, moduł NO 2 >6 wybierze model do uzupełnienia brakującej wartości. Jeśli ten warunek nie będzie spełniony moduł NO 2 >6 wybierze kolejną metodę pod względem dokładności modelowania - model regresyjny. W przypadku niespełnienia warunku występowania kompletu pozostałych danych w wierszu modelowanej komórki, moduł zarekomenduje zastosowanie modelu E, eksplorującego dane pochodzące z sąsiednich stacji monitoringowych. Dla drugiego kroku prognozy moduł NO 2 >6 zarekomenduje kolejno modele M-RP, lub E sprawdzając, czy warunki zastosowania tych modeli są spełnione. 169

Wejście do modułu NO 2 >6 Czy w 24 komórkach wstecz od 1 komórki luki występuje komplet wartości stężeń NO 2? Czy w 1 wierszu komórki luki wartość pierwszej komórki luki pomiarowej modelem wartość pierwszej komórki luki wykorzystując nieliniowy model E, eksplorujący dane pochodzące z sąsiednich stacji monitoringu powietrza wartość pierwszej komórki luki modelem Przejdź do kolejnej komórki luki pomiarowej Czy w wierszu tej komórki luki Czy w 24 komórkach wstecz od 1 komórki luki występuje komplet wartości stężeń NO 2? wartość komórki luki modelem wartość komórki luki wykorzystując nieliniowy model E, eksplorujący dane pochodzące z sąsiednich stacji monitoringu powietrza wartość komórki luki pomiarowej modelem Przejdź do kolejnej komórki luki pomiarowej Czy w wierszu tej komórki luki wartość komórki luki wykorzystując nieliniowy model E, eksplorujący dane pochodzące z sąsiednich stacji monitoringu powietrza wartość modelem Czy bieżący krok horyzontu prognozy przekracza 1/2 długości luki? Przejdź do ostatniej komórki luki pomiarowej C 170

C Czy w 24 komórkach po ostatniej komórce luki występuje komplet wartości stężeń NO 2? Czy w ostatnim wierszu komórki luki wartość ostatniej komórki luki pomiarowej modelem wartość ostatniej komórki luki wykorzystując nieliniowy model E, eksplorujący dane pochodzące z sąsiednich stacji monitoringu powietrza wartość ostatniej komórki luki modelem Przejdź do poprzedniej komórki luki pomiarowej Czy w wierszu tej komórki luki Czy w 24 komórkach po ostatniej komórce luki występuje komplet wartości stężeń NO 2? wartość komórki luki modelem wartość komórki luki wykorzystując nieliniowy model E, eksplorujący dane pochodzące z sąsiednich stacji monitoringu powietrza wartość komórki luki pomiarowej modelem Przejdź do poprzedniej komórki luki pomiarowej Czy w wierszu tej komórki luki wartość komórki luki wykorzystując nieliniowy model E, eksplorujący dane pochodzące z sąsiednich stacji monitoringu powietrza wartość modelem Czy bieżący krok horyzontu prognozy przekracza 1/2 długości luki? Wyjście z modułu NO 2 >6 171

Rys. 4. Algorytm modułu NO 2 >6 uzupełniania brakujących NO 2 dla luki pomiarowej o długości >6 godz. Dla kolejnych kroków prognozy model predykcyjny E daje lepsze rezultaty modelowania niż, zatem moduł NO 2 >6 wybierze model regresyjny lub E, w zależności od spełnienia warunku kompletności wszystkich pozostałych danych w wierszu modelowanej komórki. Przedstawiony powyżej cykl uzupełniania brakujących wartości będzie się powtarzał, aż do momentu uzupełnienia połowy luki danych, wówczas modelowanie kontynuowane będzie przy wykorzystaniu prognozy wstecznej od ostatniej komórki do połowy luki danych przy zastosowaniu tych samych warunków modelowania jak w pierwszej części algorytmu. 4. Wnioski Na podstawie przeprowadzonych badań można sformułować następujące wnioski końcowe: 1. Problem brakujących danych w systemach monitoringu powietrza można rozwiązać za pomocą algorytmu wypełniającego luki w zbiorach danych. 2. Porównując różne metody modelowania można wyznaczyć najdokładniejsze z nich i rekomendować je do algorytmu uzupełniającego dane. Wybór rekomendowanej do algorytmu metody zależy od rodzaju zanieczyszczenia, od długości luki pomiarowej i od miejsca w luce pomiarowej, a także od dostępności innych danych, wymaganych w rozpatrywanych metodach predykcji. 3. Stężenia zanieczyszczeń wszystkich zanieczyszczeń, z wyjątkiem NO, można efektywnie modelować metodą liniowej interpolacji, ale tylko do pewnej długości luki pomiarowej, powyżej której regresyjne metody modelowania okazują się dokładniejsze od interpolacji. 4. Dla rozpatrywanej stacji monitoringu powietrza modele szeregów czasowych są mniej dokładne od metody interpolacyjnej, ale mogą one zapewniać najwyższą dokładność modelowania skrajnych przypadków (pierwszych i ostatnich) w długich lukach pomiarowych. 5. W algorytmie służącym do wypełniania brakujących danych należy przyjąć tylko jedną z miar błędów jako kryterium wyboru metody modelowania. Wtedy wybór dla kolejnych miejsc luki pomiarowej będzie jednoznaczny. Praca została wykonana w ramach badań własnych Politechniki Częstochowskiej BW 402-201/06. W analizie wykorzystano wyniki uzyskane w projekcie badawczym nr 1 T09D 037 30. Literatura 1. Rozporządzenie Ministra Środowiska z dnia 17 grudnia 2008 r. w sprawie dokonywania oceny poziomów substancji w powietrzu (Dz. U. Nr 5, poz. 31). 2. Gentili S., Magnaterra L., Passerini G.: An introduction to the statistical filling of environmental data time series. In Latini G., Passerini G. (Eds.): Handling Missing Data: Applications to Environmental Analysis. Wit Press, Southampton, Boston 2006. 3. Hoffman S.: Treating missing data at air monitoring stations. In Pawłowski L., Dudzińska M. R., Pawłowski A. (Eds.): Environmental Engineering, Taylor & Francis Group, London 2007, 349-353. 4. Hoffman S., Jasiński R.: Uzupełnianie brakujących danych w systemach monitoringu powietrza. Wydawnictwo Politechniki Częstochowskiej, Częstochowa 2009. 172