ROGALSKA Magdalena 1 Analiza doboru predyktorów pogodowych do prognozowania zmiennych zależnych w budownictwie WSTĘP Statystyczne metody wyznaczania wartości zmiennych zależnych na podstawie predyktorów są coraz częściej stosowane w budownictwie. Na podstawie pomiarów zmiennych niezależnych, liczbowych i lingwistycznych, można z pewnym błędem prognozować wartości przyszłe. Wiele zmiennych zależnych takich jak np. wydajność koparek, czas transportu mieszanki betonowej, zarobki pracowników budowlanych, wielkość produkcji budowlano montażowej i inne, są uzależnione od warunków pogodowych. Zatem podczas prognozowania należałoby uwzględnić wpływ warunków atmosferycznych jako jedną ze zmiennych niezależnych. W artykule podjęto próbę znalezienia takiego miernika stanu pogody, który obliczeniowo wykazywałby bardzo wysoką skuteczność prognozowania. Analizowano możliwość wykorzystania wielu danych pogodowych jako zmiennych niezależnych. W wyniku przeprowadzonych obliczeń ogólną metodą drzew klasyfikacyjnych i regresyjnych, metodą uogólnionych modeli addytywnych i regresji wielorakiej, metodą dekompozycji sezonowej, opóźniania szeregów czasowych wytypowano jako najlepszą zmienną temperaturę potencjalną. Dana ta charakteryzuje się tym, że jest wielkością zachowawczą przy zmianach adiabatycznych atmosfery, posiada wyraźnie widoczny trend wielomianowy oraz okresowość danych. Wykazano możliwość prognozowania jej wartości przyszłych z bardzo niewielkim błędem MAPE 0,41%. 1 WPROWADZENIE Jedną z bardzo istotnych, z obliczeniowego punktu widzenia, daną pogodową, jest temperatura potencjalna [3,6]. Odgrywa ona istotną rolę w meteorologii, termodynamice atmosfery i fizyce chmur, ponieważ jest wielkością zachowawczą przy zmianach adiabatycznych atmosfery. Temperatura potencjalna cząstki próbnej powietrza o ciśnieniu p i i temperaturze T jest temperaturą jaką cząstka by miała gdyby została sprowadzona adiabatycznie do ciśnienia standardowego P 0, równego zazwyczaj 1000 hpa. Temperatura potencjalna jest równoważna pojęciu entropii powietrza. Jest ona oznaczona ϴ i jest zdefiniowana jako (1). gdzie: T temperatura cząstki, R stała gazowa; R=N A k B ; R=8,3144621(75) J/mol K, N A stała Avogadra, k B stała Boltzmanna, C p ciepło właściwe powietrza przy stałym ciśnieniu. R c p p0 T (1) p 2 ANALIZA MOŻLIWOŚCI WYKORZYSTANIA POGODOWYCH ZMIENNYCH NIEZALEŻNYCH DO PROGNOZOWANIA W BUDOWNICTWIE Warunki meteorologiczne określa się poprzez pomiary lub obliczenia temperatury minimalnej i maksymalnej, wilgotności względnej, ciśnienia, kierunku wiatru i innych. Warunki pogodowe w 1 Politechnika Lubelska, Wydział Budownictwa i Architektury; 20-618 Lublin ul.nadbystrzycka 40. Tel; : + 48 53 84 440, m.rogalska@o2.pl 9111
Polsce zależą od pory roku, miesięcy. Prognozując wartości zmiennych zależnych w budownictwie można wykorzystywać dane pogodowe jako potencjalne predyktory równań regresyjnych. Oczywiście, w niektórych metodach np. regresji wielorakiej, zmienne niezależne, które są skorelowane liniowo ze sobą, nie będą jednocześnie predyktorami zmiennej zależnej [7,14]. W wielu metodach prognostycznych mogą jednak występować razem. Celem określenia ważności wpływu poszczególnych zmiennych meteorologicznych, wykonano analizę ich wpływu na produkcję budowlano-montażową w województwie dolnośląskim w latach 2000-2011. Jako zmienne niezależne przyjęto: miesiąc, wilgotność względną, temperaturę maksymalną, temperaturę minimalną, ciśnienie, współczynnik mieszania, kierunek wiatru, uogólniony kierunek wiatru, temperaturę potencjalną, wirtualną temperaturę potencjalną, ekwiwalent potencjalnej temperatury oraz temperaturę potencjalną w drugiej potędze. Obliczenia ważności predyktorów wykonano ogólną metodą drzew klasyfikacyjnych i regresyjnych [2,8]. W wyniku przeprowadzonych obliczeń stwierdzono (rysunek 1), że predyktorem o najwyższej ważności 1,0 jest miesiąc, oznaczony jakot. Wydaje się, że jest to oczywiste, biorąc jednak pod uwagę anomalie pogodowe występujące w ostatnich latach, nie mamy już takiej pewności. Pozostałe predyktory wykazują podobne ważności w zakresie od 0,54 do 0,66. Z obliczeniowego punktu widzenia dobrym predyktorem jest zmienna, dla której można przewidzieć prognozę o błędzie ex post MAPE < 3%, która wykazuje stabilny trend. W przypadku sieci neuronowych obliczone reszty cząstkowe powinny znajdować się w pasie ufności 95%. Wykonano obliczenia prognostyczne, metodą GAM uogólnionych modeli addytywnych [4,5,10], produkcji budowlano montażowej w województwie dolnośląskim w latach 2000-2011, wykorzystując pogodowe zmienne niezależne. Celem obliczeń była analiza przydatności poszczególnych zmiennych pogodowych do prognozowania, badanie stabilności danych (trendu i wariancji) oraz szeregów resztowych poszczególnych zmiennych (jednostkowego wpływu na wynik obliczeń). Analizowano wszystkie zmienne niezależne. Większość zmiennych nie wykazywała powtarzalności wyników w analogicznych miesiącach kolejnych lat. Na rysunku 2 przedstawiono dla przykładu wykres ciśnienia atmosferycznego w kolejnych miesiącach lat 2000-2011. Nie stwierdzono powtarzalności wyników w kolejnych okresach. Wykres zależności reszt cząstkowych i ciśnienia atmosferycznego (rysunek 3), w prognozowaniu produkcji budowlano montażowej z 95% pasem ufności metodą GAM, wykazuje obecność wielu reszt poza pasem ufności. Zmienna o takich parametrach jest bardzo trudna do prognozowania w kolejnych okresach. Celem porównania pokazano na rysunkach 4 i 5 analogiczne wykresy dla temperatury potencjalnej. Wyraźnie widoczna jest powtarzalność wyników w co 12 okresie, a reszty cząstkowe znajdują się w pasie ufności 95%. Zmienna o takiej charakterystyce może być dobrym predyktorem zmiennej zależnej. Rys.1. Wykres ważności zmiennych niezależnych pogodowych w równaniu regresji prognozy produkcji budowlano-montażowej 9112
Rys.2. Wykres ciśnienia atmosferycznego we Wrocławiu w latach 2000-2011 Rys.3. Wykres zależności reszt cząstkowych i ciśnienia atmosferycznego w prognozowaniu produkcji budowlano montażowej z 95% pasem ufności Rys.4. Wykres potencjalnej temperatury w województwie dolnośląskim w badanych okresach od stycznia 2000 do grudnia 2009. Na osi x oznaczono okresy odpowiadające kolejnym miesiącom 9113
Rys.5. Wykres zależności reszt cząstkowych i temperatury potencjalnej w prognozowaniu produkcji budowlano montażowej z 95% pasem ufności Rys.6. Wykres autokorelacji cząstkowej reszt równania regresji GAM produkcji budowlano montażowej Należy poszukiwać zatem, takiej lub takich pogodowych zmiennych niezależnych, które umożliwią prognozowanie innych zmiennych w budownictwie, tak by błąd MAPE był możliwie jak najmniejszy. Jeśli udałoby się postawić dobrą prognozę dla takiej zmiennej, to mogłaby być ona predyktorem w równaniu regresji. Na podstawie wyników, dotychczas przeprowadzonej analizy wytypowano jako prawdopodobnie dobry predyktor zmienną potencjalna temperatura rysunek 4 i 5. 3 PROGNOZA POTENCJALNEJ TEMPERATURY NA OKRES OD I-IX 2010 W WOJEWÓDZTWIE DOLNOŚLĄSKIM Bazując na założeniu, że zmienna dla której można postawić dobrą prognozę (MAPE <3%) będzie dobrym predyktorem innych zmiennych, przeprowadzono obliczenia przyszłych wartości temperatury potencjalnej. O wyborze tej zmiennej zdecydował wyraźnie widoczny trend wielomianowy oraz okresowość danych. Sporządzono wejściowy arkusz kalkulacyjny w programie STATISTICA rys.7. Pozyskane dane to średnia temperatura potencjalna ze 129 kolejnych miesięcy. Dane stanowią szereg czasowy. Szereg ten podzielono na dwa podszeregi: pierwszych 120 danych użyto do prognozowania, pozostałych 9 danych do weryfikacji prawidłowości prognozy, poprzez obliczenie błędu MAPE ex post. Zmienne używane w arkuszu rys.7 zestawiono w tabeli 1. Zmienną zależną prognozowaną jest potencjalna temperatura, oznaczona jako v3. Zmiennymi niezależnymi są data, kolejny numer okresu szeregu czasowego, temperatura potencjalna opóźniona o 12 okresów oraz kolejne miesiące od stycznia do grudnia z tzw. dekompozycją sezonową zrealizowaną metodą (1,0,-1). Dekompozycja ta polega na tym, że w przypadku zgodności zmiennej data i zmiennej miesiąc w miejsce przypadku 9114
wpisuje się wartość 1, zaś pozostałym zmiennym miesiąc przypisuje się wartość zero. Należy wybrać spośród 12 miesięcy jeden, dla którego nie będzie ustalało się prognozy i przyporządkować wszystkim przypadkom tego miesiąca w kolejnych latach wartość -1. Można oczywiście przeprowadzić kolejną analizę i wybrać inny miesiąc nie prognozowany. W omawianym przypadku wybrano marzec, jako najmniej stabilny miesiąc w roku w warunkach klimatycznych w Polsce. Tab.1.Zestawienie zmiennych z oznaczeniami do prognozowania potencjalnej temperatury w województwie dolnośląskim Zmienna Nazwa zmiennej Zmienna Nazwa zmiennej v1 data V9 maj v2 t V10 czerwiec v3 Potencjalna temperatura 2000-2009 V11 lipiec v4 Potencjalna temperatura V12 sierpień 2000-2009 opóźniona o 12 okresów v5 styczeń V13 wrzesień v6 luty V14 październik v7 marzec V15 listopad v8 kwiecień V16 grudzień Rys.7. Widok arkusza wyjściowego do prognozowania potencjalnej temperatury sporządzony w programie STATISTICA Do prognozowania zmiennej zależnej zastosowano metodę regresji wielorakiej wstecznej [1,7]. Otrzymano równanie regresyjne MR1 w postaci (2), podsumowanie regresji zmiennej zależnej v3 zamieszczono w tabeli 2, porównanie wartości prognozowanych z rzeczywistymi przedstawiono na rysunku 8. Obliczono błąd MAPE dobroci dopasowania, wyniósł on 0,6%, co można uznać za wynik bardzo dobry. Prawidłowość równania regresji (2) potwierdzono brakiem autokorelacji i autokorelacji cząstkowej reszt szeregu resztowego zmiennej zależnej i jej prognozy. Celem ustalenia prawidłowości prognozy ex post wykorzystano 9 pozostawionych wyrazów szeregu od stycznia do września 2010 roku. Wartości prognozowane obliczono z wzoru regresji (2). Jeśli dany miesiąc jest miesiącem prognozowanym to wtedy zmienna vi w równaniu regresji przyjmuje wartość 1, jeśli nie to wartość 0. Wyniki obliczeń zestawiono w tabeli 3, a obliczone wartości błędów ex post w tabeli 4. 9115
Tab.2. Wyniki regresji zmiennej zależnej v3 potencjalna temperatura Podsumowanie regresji zmiennej zależnej: potencjalna temperatura N=108 R=,95461861 R^2=,91129669 Skorygowane. R^2= 0,90215202 b* Bł. std. z b* b Bł. std.z b t(97) p Wyraz wolny 334,5247 27,28267 12,26144 0,000000 potencjalna -0,192742 0,096262-0,1951 0,09743-2,00227 0,048047 temperatura -12 (v4) Styczeń (v5) -0,597946 0,063568-9,3213 0,99095-9,40641 0,000000 Luty (v6) -0,580680 0,061098-9,0522 0,95245-9,50408 0,000000 Maj (v9) 0,322352 0,048335 5,0251 0,75349 6,66913 0,000000 Czerwiec (v10) 0,546153 0,060101 8,5139 0,93690 9,08731 0,000000 Lipiec (v11) 0,689410 0,068760 10,7471 1,07189 10,02639 0,000000 Sierpień (v12) 0,613876 0,064223 9,5696 1,00116 9,55852 0,000000 Wrzesień (v13) 0,238412 0,044518 3,7166 0,69398 5,35547 0,000001 Listopad (v15) -0,276981 0,047245-4,3178 0,73649-5,86269 0,000000 Grudzień (v16) -0,620576 0,063358-9,6741 0,98768-9,79478 0,000000 v3 =334,5247-0,1951v4-9,3213v5-9,0522v6+5,0251v9+ 8,5139v10+ (2) 10,7471v11+ 9,5696v12+3,7166v13-4,3178v15-9,6741v16 Rys.8. Potencjalna temperatura wyniki empiryczne i prognozowane metodą regresji wielorakiej w województwie dolnośląskim w badanych okresach od stycznia 2000 do grudnia 2009 oraz prognozy uzyskanej metodą regresji R1(v3;v4,v5,v6,v9,v10,v11, v12, v13,v15,v16) od stycznia 2000 do grudnia 2010 Tab.3. Potencjalna temperatura wyniki empiryczne i prognozowane metodą regresji wielorakiejod stycznia do października 2010 r. oraz uzyskane w 2011 wartości rzeczywiste t Data Prognoza potencjalna temperatura Wartości rzeczywiste potencjalna temperatura 121 2010.1 272,285 266,6968 122 2010.2 272,414 271,7286 123 2010.3 275,627 275,3484 124 2010.4 279,593 278,4133 125 2010.5 284,261 284,0710 126 2010.6 287,116 286,4467 127 2010.7 289,060 289,5129 128 2010.8 288,014 288,6129 129 2010.9 282,781 283,1133 9116
Tab.4.Analiza ex post. Wartości błędów ME, MAE, MPE i MAPE oraz współczynników Theila, prognoza metodą MR1(v3;v4,v5,v6,v9,v10,v11,v12,v13,v15,v16) Nazwa i opis ME MAE MPE MAPE [%] R1(v3;v4,v5,v6,v9,v10, v11,v12,v13,v15,v16) -0,8007 1,1083-0,03 0,41 Nazwa i opis I 2 I 2 I 1 2 I 2 2 I 3 R1(v3;v4,v5,v6,v9,v10, v11,v12,v13,v15,v16) 0,0000 0,0069 0,0000 0,0000 0,0000 Stwierdzono, że dopasowanie modelu do wartości rzeczywistych jest bardzo dobre. Wartość MAPE wynosi 0,41 % a wartość współczynnika Thaila I jest równa 0,0069. Ze względu na mały błąd prognozy temperatury potencjalnej, w oparciu o dane o zmienności jej wartości w przeszłości może być stosowana jako predyktor zmiennych od niej zależnych. Przedstawioną prognozę wykorzystano w wielu pracach, między innymi w [12,13]. PODSUMOWANIE Dobór pogodowych zmiennych niezależnych ma istotny wpływ na jakość predykcji zmiennych zależnych związanych z budownictwem. Jak wykazano temperatura potencjalna jest bardzo dobrym predyktorem, który może być szeroko stosowany. Dana ta charakteryzuje się tym, że jest wielkością zachowawczą przy zmianach adiabatycznych atmosfery, posiada wyraźnie widoczny trend wielomianowy oraz okresowość danych. Wykazano możliwość prognozowania jej wartości przyszłych. Pomimo, że nie jest najbardziej popularnym miernikiem stanu pogody, obliczeniowo wykazuje bardzo wysoką skuteczność prognozowania. Wyniki prac były finansowane z środków statutowych przyznanych przez Ministerstwo Nauki i Szkolnictwa Wyższego (S/63/2014). Streszczenie W artykule podjęto próbę znalezienia takiego miernika stanu pogody, który obliczeniowo wykazywałby bardzo wysoką skuteczność prognozowania. Analizowano możliwość wykorzystania wielu danych pogodowych jako zmiennych niezależnych. W wyniku przeprowadzonych obliczeń ogólną metodą drzew klasyfikacyjnych i regresyjnych, metodą uogólnionych modeli addytywnych i regresji wielorakiej, metodą dekompozycji sezonowej, opóźniania szeregów czasowych wytypowano jako najlepszą zmienną temperaturę potencjalną. Dana ta charakteryzuje się tym, że jest wielkością zachowawczą przy zmianach adiabatycznych atmosfery, posiada wyraźnie widoczny trend wielomianowy oraz okresowość danych. Wykazano możliwość prognozowania jej wartości przyszłych z bardzo niewielkim błędem MAPE 0,41%. Analysis of the selection of weather predictors to forecast dependent variables in the construction industry Abstract Weather conditions have a significant impact on the way the design, construction and maintenance of buildings in Poland. Selection weather independent variables have a significant impact on the quality of prediction of dependent variables related to construction. The ability to use multiple weather data was analyzed. Calculations were performed using the general method of classification and regression trees, generalized additive models and multiple regression method, seasonal decomposition, delaying the time series. Potential temperature were selected as the best variable for forecasting. The potential temperature is conservative with changes in adiabatic atmosphere, has a clearly visible polynomial trend and the periodicity of the data. It has been shown the possibility of forecasting the future value with very little error MAPE= 0.41%. Although not the most popular measure of the weather conditions, has a very high computational efficiency. 9117
BIBLIOGRAFIA 1. Aczel A.D., Statystyka w zarządzaniu, PWN, Warszawa 2000. 2. BreimanI.,Friedman J.H., Olshen R.A., Stone C.J., Classification and Regression Trees, Wadsworth International Group 1984. 3. Godłowska, J., and A. M. Tomaszewska. Porównanie głębokości warstwy mieszania określonych na podstawie SODARu i pionowego profilu temperatury potencjalnej. Wiadomości IMGW 28.49 (2005): 1. 4. Hastie, Trevor, and Robert Tibshirani. Generalized additive models. Statistical science 1.3 (1986): 297-310. 5. Hestie T.J.,Tibshirani R.J. Generalized Additive Models. London: Chapman Hall 1990. 6. Kłysik, Kazimierz. Wpływ struktury termiczno-wilgotnościowej przyziemnych warstw powietrza na klimat lokalny w wybranych warunkach terenowych. Vol. 49. Zakład Narodowy im. Ossolińskich, 1985. 7. Kot S., Jakubowski J., Sokołowski A., Statystyka. Difin, Warszawa 2007. 8. Loh, Wei Yin. "Classification and regression trees." Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 1.1 (2011): 14-23. 9. Martyniak Z., Wstęp do inwentyki. Wydawnictwo Uczelniane, Kraków 1997 r., Kraków, s.32 10. Mccullagh P.,Nelder J.A. Generalized Linear Models, 2 nd London: Chapman and Hall 1989. 11. Podręcznikinternetowy STATISTICA, http://www.statsoft.pl /textbook/sttimser. htm 12. Rogalska M. Prognozowanie produkcji budowlano montażowej w województwie dolnośląskim. Budownictwo i Architektura 2012/2 vol 11 121 137. 13. Rogalska M., Hejducki Z Analiza porównawcza prognozowania produkcji budowlanej z zastosowaniem metod regresji krokowej, sieci neuronowych i ARIMA, Zeszyty naukowe WSOWL 3(157) 2010. 14. Stanisz A., Przystępny kurs statystyki z zastosowaniem STATISTICA PL na przykładach z medycyny.,t 1. StatSoft Polska Sp. z o.o., Kraków 2006. 9118