ZESZYTY NAUKOWE WSOWL. Nr 3 (157) 2010 ISSN NAUKI TECHNICZNE

Podobne dokumenty
7.4 Automatyczne stawianie prognoz

Analiza metod prognozowania kursów akcji

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

5. Model sezonowości i autoregresji zmiennej prognozowanej

3. Analiza własności szeregu czasowego i wybór typu modelu

Przykład 2. Stopa bezrobocia

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Przykład 1 ceny mieszkań

4. Średnia i autoregresja zmiennej prognozowanej

3. Modele tendencji czasowej w prognozowaniu

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Ćwiczenia IV

Wprowadzenie do analizy korelacji i regresji

This copy is for personal use only - distribution prohibited.

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Rozdział 8. Regresja. Definiowanie modelu

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Analiza doboru predyktorów pogodowych do prognozowania zmiennych zależnych w budownictwie

Prognozowanie produkcji budowlano montażowej w województwie dolnośląskim. Część I

Analiza autokorelacji

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Analizy wariancji ANOVA (analysis of variance)

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Ćwiczenie 5 PROGNOZOWANIE

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

PROGNOZOWANIE CENY OGÓRKA SZKLARNIOWEGO ZA POMOCĄ SIECI NEURONOWYCH

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

FORECASTING THE DISTRIBUTION OF AMOUNT OF UNEMPLOYED BY THE REGIONS

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2014/2015

Regresja i Korelacja

Analiza współzależności zjawisk

PDF created with FinePrint pdffactory Pro trial version

Własności statystyczne regresji liniowej. Wykład 4

Wykorzystanie testu Levene a i testu Browna-Forsythe a w badaniach jednorodności wariancji

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

KORELACJE I REGRESJA LINIOWA

EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyka i Analiza Danych

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Typowe błędy w analizie rynku nieruchomości przy uŝyciu metod statystycznych

Projekt zaliczeniowy z Ekonometrii i prognozowania Wyższa Szkoła Bankowa w Toruniu 2017/2018

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Wprowadzenie Model ARMA Sezonowość Prognozowanie Model regresji z błędami ARMA. Modele ARMA

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

1 Estymacja przedziałowa

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji

Egzamin ze statystyki, Studia Licencjackie Stacjonarne. TEMAT C grupa 1 Czerwiec 2007

STATYSTYKA MATEMATYCZNA

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Zagadnienie 1: Prognozowanie za pomocą modeli liniowych i kwadratowych przy wykorzystaniu Analizy regresji wielorakiej w programie STATISTICA

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Prognozowanie liczby pacjentów poradni ortopedycznej

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Prognozowanie na podstawie modelu ekonometrycznego

Przykład 1. (A. Łomnicki)

Ekonometria Ćwiczenia 19/01/05

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

POLITECHNIKA OPOLSKA

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Prognozowanie zanieczyszczeń atmosferycznych przy użyciu sieci neuronowych

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

1. Stacjonarnośd i niestacjonarnośd szeregów czasowych 2. Test ADF i test KPSS 3. Budowa modeli ARMA dla zmiennych niestacjonarnych 4.

SPIS TEŚCI CZĘŚĆ I RACHUNEK PRAWDOPODOBIEŃSTWA

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Dobór zestawu maszyn do robót ziemnych w aspekcie minimalizacji emisyjności CO 2

MODELE AUTOREGRESYJNE W PROGNOZOWANIU CEN ZBÓŻ W POLSCE

Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Spis treści 3 SPIS TREŚCI

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Diagnostyka w Pakiecie Stata

Prognozowanie krótkoterminowe w procesie planowania zasobów

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Transkrypt:

ZESZYTY NAUKOWE WSOWL Nr 3 (57) 2 ISSN 73-857 NAUKI TECHNICZNE Magdalena ROGALSKA Zdzisław HEJDUCKI ANALIZA PORÓWNAWCZA PROGNOZOWANIA PRODUKCJI BUDOWLANEJ Z ZASTOSOWANIEM METOD REGRESJI KROKOWEJ, SIECI NEURONOWYCH I ARIMA W pracy analizowano moŝliwość prognozowania produkcji budowlano montaŝowej województwa dolnośląskiego metodami regresji, sieci neuronowych i ARIMA(Autoregressive Integrated Moving Average - autoregresyjny zintegrowany proces średniej ruchomej). Do prognozowania w metodzie regresji uŝyto danych pogodowych dziennych województwa dolnośląskiego. Potencjalne predyktory eliminowano, sprawdzając normalność ich rozkładów (testami Kołmogorowa-Smirnowa, Lilliefoesa i Chi kwadrat),warunek braku korelacji między zmiennymi (współczynnik korelacji) oraz warunek równości wariancji pomiędzy zmiennymi (testy Levene a i Browna-Forsythe a). Do obliczeń metodą sieci neuronowych uŝyto sieci MLP i RBF, wprowadzając wszystkie uzyskane dane pogodowe. W metodzie ARIMA prognozowanie odbywało się na podstawie wartości statystycznych z lat poprzednich. Przeprowadzono analizę wyników, obliczając błędy ME, MAE, MPE i MAPE. Zaproponowano kierunek dalszych badań. Słowa kluczowe: prognoza, produkcja budowlano-montaŝowa, regresja krokowa, sieci neuronowe, ARIMA WSTĘP Stosowanie współczesnych statystycznych metod obliczeniowych w budownictwie jest ograniczone z powodu braku wystarczająco duŝych baz danych wyjściowych. Ogólnie znany jest fakt zaleŝności intensywności i wielkości robót budowlanych od czynników pogodowych. W pracy podjęto próbę tworzenia bazy danych dla budownictwa, która dzięki przyszłym rozszerzeniom mogłaby być uŝyteczna. Jako podstawę bazy danych przyjęto dane pogodowe. dr inŝ. Magdalena ROGALSKA Wydział Budownictwa i Architektury Politechniki Lubelskiej dr hab. inŝ. Zdzisław HEJDUCKI Politechnika Wrocławska

ANALIZA PORÓWNAWCZA PROGNOZOWANIA PRODUKCJI BUDOWLANEJ. DANE Do analizy przyjęto dwa rodzaje danych: dane dotyczące produkcji budowlanomontaŝowej oraz dane pogodowe. Dane zbierano dla województwa dolnośląskiego. Ze względu na zmianę podziału terytorialnego Polski w 999 roku, dane z lat poprzednich wykazują wysoki stopień zaburzenia wiarygodności danych regionalnych (inny podział kraju na województwa). Z tego powodu do obliczeń przyjęto okres od stycznia 2 roku do grudnia 28 roku. Zbiór danych od stycznia do grudnia 29 roku przyjęto jako weryfikacyjny do testowania przyjętych modeli w metodach regresji krokowej, automatycznych sieci neuronowych oraz ARIMA. Dane dotyczące produkcji budowlano montaŝowej uzyskano we Wrocławskim Oddziale Głównego Urzędu Statystycznego. Pozyskane dane (bez zbioru weryfikacyjnego) przedstawiono na rysunku. Z przebiegu wykresu moŝna domniemywać, Ŝe jest to szereg czasowy stacjonarny z wykładniczą funkcją trendu określoną wzorem (): gdzie: Y + Y produkcja budowlano montaŝowa [ml zł], x kolejne okresy (miesiąc,.n). 2 = 339,7998 6,285x,79x () 8 Liniowy produkcja budowlano montaŝowa pogoda miesiące prbm 47v*2c prod bud montaŝ = 339,7998-6,285*x+,79*x^2 7 6 prod bud montaŝ 5 4 3 2 6 6 2 26 3 36 4 46 5 56 6 66 7 76 8 86 9 96 6 Rys.. Wykres zaleŝności produkcji budowlano montaŝowej w województwie dolnośląskim w badanych okresach od stycznia 2 do grudnia 28. Na osi X oznaczono okresy odpowiadające kolejnym miesiącom 283

Magdalena ROGALSKA, Zdzisław HEJDUCKI Produkcja budowlano montaŝowa wykazuje wyraźny wzrost od okresu 5 czyli od marca 24. Okres najniŝszej produkcji budowlano montaŝowej notujemy od okresu 38 do 5 (luty 23 do marca 24). MoŜna zauwaŝyć, Ŝe istnieje powtarzająca się zaleŝność wartości produkcji od wytypowanych miesięcznych okresów. Największą wartość niezaleŝnie od funkcji trendu notujemy w grudniu. Związane jest to z polskimi uregulowaniami prawnymi płacenie podwójnego podatku VAT i dochodowego od faktur wystawionych w listopadzie. W listopadzie widać znaczący spadek produkcji, naleŝy jednak uwzględnić fakt, Ŝe wiele przedsiębiorstw unika fakturowania właśnie ze względu na podwójne podatki. MoŜe to być wahanie pozorne. Kolejne minima punktowe występują w styczniu, a maksima lokalne w czerwcu i wrześniu. Z powyŝszego wynika, Ŝe dane pogodowe mogłyby być predyktorami odpowiedzialnymi za wahania sezonowe produkcji budowlano montaŝowej. Nie jest moŝliwe pełne prognozowanie produkcji jedynie na bazie danych pogodowych. Z całą pewnością mają wpływ równieŝ inne czynniki takie, jak wysokość dofinansowania prac przez Unię Europejską, realizacje związane z EURO 22 czy teŝ wysokość średniej płacy krajowej. Zatem wprowadzenie danych pogodowych do zaproponowanych modeli statystycznych ma na celu uzyskanie wahań sezonowych. Autorzy nie spodziewają się otrzymania w pełni zgodnej prognozy w metodzie regresji liniowej i automatycznych sieci neuronowych. Inaczej jest w przypadku metody ARIMA, gdzie dane pogodowe nie są wprowadzane do obliczeń. Dane pogodowe uzyskano ze strony internetowej Uniwersytetu Wyoming w Stanach Zjednoczonych, gdzie gromadzone są dane pogodowe z dwóch polskich stacji meteorologicznych z Wrocławia i Legionowa. Do analizy pozyskano dane wrocławskie. Stworzono bazę danych dziennych notowań w latach 2 do 29 (365 dni). Dane pogodowe dzienne zawierają następujące informacje: Zmn - ciśnienie atmosferyczne Zmn - geopotencjalna wysokość Zmn2 - temperatura minimalna Zmn3 - temperatura maksymalna Zmn4 - wilgotność względna Zmn5 - współczynnik mieszania Zmn6 - kierunek wiatru Zmn7 - uogólniony kierunek wiatru Zmn8 - potencjalna temperatura Zmn9 - ekwiwalentna potencjalna temperatura Zmn2 - wirtualna potencjalna temperatura 2. PROGNOZOWANIE METODĄ REGRESJI KROKOWEJ Obliczenia wykonano w programie STATISTICA firmy Statsoft. Metoda regresji krokowej wstecznej polega na poszukiwaniu zaleŝności funkcyjnych pomiędzy danymi statystycznymi. Poszukiwana wartość (w naszym przypadku wartość produkcji budowlano montaŝowej) zwana jest zmienną zaleŝną, natomiast dane, które słuŝą do jej wyznaczenia to zmienne niezaleŝne. Zmienne niezaleŝne, które będą uŝyte jako predyktory (ich wartości będą występować w zaleŝności funkcyjnej), muszą spełniać następu- 284

ANALIZA PORÓWNAWCZA PROGNOZOWANIA PRODUKCJI BUDOWLANEJ jące warunki: muszą mieć rozkład normalny, nie mogą być wzajemnie skorelowane i musi zachodzić warunek równości ich wariancji []. 2.. Sprawdzenie warunku normalności rozkładu Celem sprawdzenia normalności rozkładów zmiennych zastosowano 3 rodzaje testów statystycznych: Kołmogorowa-Smirnowa, Lillieforsa i Chi kwadrat. Postawiono hipotezę zerową H, Ŝe rozkład nie jest normalny oraz hipotezę alternatywną H mówiącą, Ŝe rozkład jest normalny. W wyniku przeprowadzonych testów, zestawionych w tabeli., stwierdzono, Ŝe w przypadku zmiennych, 4 i 6 (p >,5) nie ma podstaw do odrzucenia hipotezy zerowej H i naleŝy przyjąć, Ŝe rozkłady tych zmiennych nie są normalne. Zatem zmienne te nie powinny być predyktorami zmiennej zaleŝnej. Tabela. Zestawienie wyników testów Kołmogorowa Smirnowa, Lillieforsa i Chi kwadrat testujących normalność rozkładów Zmienna d Kołmogorowa p Chi df p rozkład - Smirnowa Lillieforsa kwadrat Zmn,28 <, 6,338 5,2747 inny niŝ normalny Zmn,4999 <, 6,68, normalny Zmn2,8647 <,5 9,88 8, normalny Zmn3,95 <,95 42,778 8, normalny Zmn4,732 <,2 9,58 5,9 inny niŝ normalny Zmn5,29484 <, 93,464 3, normalny Zmn6,7455 <,2 7,423 5,9 inny niŝ normalny Zmn7,499 <, 8,922 3,33 normalny Zmn8,925 <,5 28,34 8,4 normalny Zmn9,9883 <,5 2,493 6,5 normalny Zmn2,8842 <,5 7,387 8,263 normalny Do dalszych testów statystycznych, mających na celu wyznaczenie predyktorów nie będą uwzględniane zmienne,4 i 6, ze względu na brak spełnienia warunku normalności rozkładu. 2.2. Sprawdzenie warunku braku korelacji pomiędzy zmiennymi Obliczono współczynnik korelacji liniowej Pearsona dla pozostałych zmiennych. Współczynnik ten (oznaczany r xy i przyjmujący wartości [-,]) jest miernikiem siły związku prostoliniowego między dwiema cechami mierzalnymi. Wartość tego współczynnika (tabela 2) wyliczona z próby jest zgodnym estymatorem współczynnika korelacji w całej populacji. Aby moŝna było uznać, Ŝe zmienne nie są skorelowane, współczynnik r xy musi przyjąć wartość. Korelację nikłą przyjmujemy, gdy: <r xy <,. Współczynniki korelacji obliczono ze wzoru (2). r xy = n n ( xi x )( y i y ) i= cov ( X, Y ) (2) = n 2 2 ( xi x ) ( y i y ) i= i= gdzie: x, y - średnie, a s x i s y odchylenia standardowe tych cech. s x s y 285

Magdalena ROGALSKA, Zdzisław HEJDUCKI Tabela 2. Zestawienie współczynników korelacji potencjalnych predyktorów, brak korelacji pomiędzy zmiennymi oznaczono czcionką Bold Korelacje (Arkusz.sta) Oznaczone wsp. korelacji są istotne z p <,5 N=5 (Braki danych usuwano przypadkami) Zmn Zmn2 Zmn3 Zmn5 Zmn7 Zmn8 Zmn9 Zmn2 Zmn,,32,56 -,639 -,9,27,39,28 Zmn2,32,,99,45 -,638,998,993,999 Zmn3,56,99,,38 -,643,99,993,99 Zmn5 -,639,45,38, -,258,49,49,49 Zmn7 -,9 -,638 -,643 -,258, -,62 -,64 -,622 Zmn8,27,998,99,49 -,62,,993, Zmn9,39,993,993,49 -,64,993,,995 Zmn2,28,999,99,49 -,622,,995, W wyniku przeprowadzonych obliczeń stwierdzono, Ŝe istnieje nikła korelacja pomiędzy zmienną, a zmiennymi 2,3,7,8,9 i 2. Zatem moŝemy utworzyć następujące zespoły predyktorów: (,2), (,3), (,7), (,8), (,9), (,2) pod warunkiem równości ich wariancji lub teŝ zmienne,2,3,7,8,9 i 2 mogą być pojedynczymi predyktorami zmiennej zaleŝnej. 2.3. Sprawdzenie warunku równości wariancji pomiędzy zmiennymi Celem sprawdzenia jednorodności wariancji w grupach przeprowadzono testy ANOVA, test Levene a i test Browna-Forsythe a. Obliczenia wykonano przy uŝyciu programu STATSTICA. Postawiono hipotezę zerową H, Ŝe zmienne poddane analizie mają jednakowe wariancje. Wykonano obliczenia dla wytypowanych w p.2.2. zespołów danych. Przykładowe wyniki obliczeń dla zespołu potencjalnych predyktorów (,2) zestawiono w tabeli 3: Tabela 3. Wyniki testów Levene a i Browna-Forsythe a równości wariancji Test Levene'a jednorodności wariancji Zmienna SS df Zaznaczone efekty są istotne z p <,5 MS SS df MS F p Efekt Efekt Efekt Błąd Błąd Błąd NowaZm 684,4 684,4 22,92 238 5,358 328,982, Test jednorodności wariancji Browna-Forsythe a Zmienna SS df Zaznaczone efekty są istotne z p <,5 MS SS df MS F p Efekt Efekt Efekt Błąd Błąd Błąd NowaZm 682,489 682,489 23,38 238 5,69663 325,4543, 286

ANALIZA PORÓWNAWCZA PROGNOZOWANIA PRODUKCJI BUDOWLANEJ W wyniku przeprowadzonych obliczeń ( test Levene a i Browna-Forsythe a) mamy podstawy do odrzucenia hipotezy zerowej H gdyŝ: MSEF > dfef. Przyjmuje się, Ŝe analizowane zmienne mają róŝne wariancje. Analizując wyniki obliczeń wszystkich zespołów wytypowanych w p.2.2, stwierdzono kaŝdorazowo, Ŝe nie istnieje pomiędzy zmiennymi równość wariancji. WNIOSEK: predyktorami zaleŝności regresyjnej mającej na celu prognozowanie produkcji budowlano montaŝowej mogą być tylko pojedyncze dane z pliku danych pogodowych z podzbioru zmiennych, 2, 3, 7, 8, 9 i 2. 2.4. Obliczenia zaleŝności regresyjnych Poszukując takiego równania regresji, aby prawdopodobieństwo popełnienia błędu było najmniejsze (p<,5), stwierdzono, Ŝe ze względu na wykładniczy charakter linii trendu zmiennej zaleŝnej, predyktorem powinna być równieŝ zmienna wykładnicza. Przeprowadzono szereg obliczeń, wprowadzając nowe zmienne będące funkcją potęgową zmiennych wytypowanych w p.2.3 oraz zmienną lp (liczba porządkowa od do 8), lp 2, lp 3 i zmienną t (okres od do 2), t 2 i t 3. Otrzymywane wyniki sprawdzano, obliczając błędy prognozowania ME, MPE, MAE i MAPE (opisane w punkcie 5 niniejszej pracy). Brano równieŝ pod uwagę skorygowany współczynnik R 2, informujący o stopniu wyjaśnienia wartości zmiennej zaleŝnej od przyjętych predyktorów. Jak opisano w p., nie spodziewano się uzyskania pełnego wyjaśnienia zmiennej zaleŝnej od danych pogodowych, spodziewano się wartości R 2 powyŝej,6. Analizując otrzymane wyniki, optymalnym rozwiązaniem jest zaleŝność regresyjna w postaci (3) tabela 4. 2 3 ( lp) +,26 + 4,9 (potencjalna temperatura) Y = 994,582 +,5 t (3) Tabela 4. Wyniki obliczeń regresji zmiennej zaleŝnej N=8 Podsumowanie regresji zmiennej zaleŝnej: produkcja budowlano montaŝowa R=,8378932 R^2=,6987348 Skorygowany. R2=,6829852 F(3,4)=77,84 p<, Błąd standardowy estymacji: 62,622 b* Błąd standardowy. z b* b Błąd standardowy z b t(4) p W. wolny -994,582 274,586-3,6234,452 lp^2,488855,5476,5,7 8,93445, t^3,626887,55728,26,2,249, potencjalna temperatura,233374,55446 4,9,9762 4,293,55 Otrzymane wartości funkcji regresji (linia przerywana) oraz wartości zmiennej zaleŝnej przedstawiono na rysunku 2. 287

Magdalena ROGALSKA, Zdzisław HEJDUCKI 6 Liniow y w iele zmiennych pogoda miesiące prbm 47v*2c prod bud montaŝ = 334,245-5,855*x+,663*x^2 prog lp^2,t^3,pt = 27,63+,334*x+,34*x^2 5 4 3 2 6 2 6 26 3 4 36 46 5 6 7 56 66 76 8 9 86 96 6 prod bud montaŝ prog lp^2,t^3,pt Rys. 2. Wykres zaleŝności produkcji budowlano montaŝowej i prognozy uzyskanej metodą regresji od kolejnych okresów lp. 3. PROGNOZOWANIE METODĄ AUTOMATYCZNYCH SIECI NEURONOWYCH Zastosowanie sieci neuronowych wymaga posiadania duŝej bazy danych. W budownictwie zwykło się uwaŝać, Ŝe posiadamy zbyt mało danych. Baza danych pogodowych okazała się wystarczająco duŝa, aby moŝna było otrzymać zadawalające wyniki. Obliczenia wykonano w programie STATISTICA. Stosowano sieci MLP (2 sztuk) o liczbie warstw ukrytych od 6 do 2 oraz sieci RBF(2 sztuk) o liczbie warstw ukrytych od 4 do 2. Na rysunku 3 przedstawiono wykres uzyskanych wartości prognozowanych (oznaczono linią przerywaną) oraz wartości rzeczywiste (linia ciągła). Uzyskano niepełne dopasowanie, co świadczy o tym, Ŝe pogoda nie jest jedynym czynnikiem mającym wpływ na produkcję budowlano montaŝową. Sukcesem jest natomiast to, Ŝe udało się uzyskać wahania sezonowe. 4. PROGNOZOWANIE METODĄ ARIMA Model autoregresyjny średniej ruchomej ARIMA to ogólny model wprowadzony przez Boxa i Jenkinsa (976). Zawiera on zarówno parametry autoregresyjne, jak i średniej ruchomej oraz wprowadza do postaci modelu operator róŝnicowania [2]. W szczególności, w modelu wyróŝnia się trzy typy parametrów: parametry autoregresyjne (p), rząd róŝnicowania (d) oraz parametry średniej ruchomej (q). Wedle notacji wprowadzonej przez Boxa i Jenkinsa, modele określa się jako ARIMA (p, d, q); na 288

ANALIZA PORÓWNAWCZA PROGNOZOWANIA PRODUKCJI BUDOWLANEJ przykład opisanie modelu jako (,, 2) oznacza, Ŝe zawiera on (zero) parametrów autoregresyjnych (p) i 2 parametry średniej ruchomej (q), które zostały obliczone dla szeregu po jednokrotnym róŝnicowaniu (d). W modelu ARIMA zakłada się, Ŝe moŝna oszacować współczynniki modelu, które opisują kolejne elementy szeregu na podstawie opóźnionych w czasie poprzednich elementów (proces autoregresyjny) oraz Ŝe pozostają one pod wpływem realizacji składnika losowego w okresach przeszłych (proces średniej ruchomej). Zatem kaŝda obserwacja składa się ze składnika losowego oraz kombinacji liniowej składników losowych z przeszłości, a wartość szeregu czasowego jest sumą składnika losowego oraz kombinacji liniowej poprzednich obserwacji. 6 Liniow y w iele zmiennych pogoda miesiące prbm 47v*2c prod bud montaŝ = 334,245-5,855*x+,663*x^2 sieci = 76,823-6,6347*x+,245*x^2 5 4 3 2 6 6 2 26 3 36 4 46 5 56 6 66 7 76 8 86 9 96 6 prod bud montaŝ sieci Rys. 3. Prognoza wartości produkcji budowlano montaŝowej otrzymana przy zastosowaniu sieci neuronowych Poszukując optymalnego modelu ARIMA dla szeregu czasowego produkcji budowlano montaŝowej, analizowano wiele modeli. Wyznacznikiem dobroci dopasowania określonego modelu jest analiza funkcji autokorelacji i korelacji cząstkowych. Wyniki obliczeń dla optymalnych współczynników (3,,) (,,) przedstawiono na rysunkach 4 i 5. Linie przerywane na korelogramach przedstawiają przedział wyznaczony przez dwa błędy standardowe (przedział ufności). Pola funkcji nie mogą przekraczać tych linii. 289

Magdalena ROGALSKA, Zdzisław HEJDUCKI Funkcja autokorelacji ARIMA : ARIMA (3,,)(,,) reszty ; Opóźn Kor. S.E (Błędy standardowe to oceny białego szumu) Q p -,6,949 2 -,3,945 3 -,2,94 4 -,37,936 5 -,9,93 6 +,58,927 7 -,25,922 8 -,47,97 9 +,27,93 +,7,98 -,24,94 2 -,73,899,,9487,,9973,5,997,2,9949,3,95,52,958,6,9788,86,985,94,9923,95,9967 3,83,9746 4,49,9728 -, -,5,,5, P. ufności Rys. 4. Korelogram funkcji autokorelacji z oznaczonym poziomem ufności, ARIMA (3,,) (,,), z opóźnieniem sezonowym 2 dla zmiennej produkcja budowlano montaŝowa Opóźn Kor. S.E Funkcja autokorelacji cząstkowej ARIMA : ARIMA (3,,)(,,) reszty ; (Błędy std. przy załoŝeniu AR rzędu k-) -,6,962 2 -,3,962 3 -,2,962 4 -,38,962 5 -,9,962 6 +,56,962 7 -,27,962 8 -,52,962 9 +,22,962 +,2,962 -,2,962 2 -,87,962 -, -,5,,5, P. ufności Rys. 5. Korelogram funkcji autokorelacji cząstkowej z oznaczonym poziomem ufności, ARIMA (3,,) (,,), z opóźnieniem sezonowym 2 dla zmiennej produkcja budowlano montaŝowa Po stwierdzeniu prawidłowości modelu wykonano prognozowanie wartości produkcji budowlano montaŝowej w okresach lp od 9 do 2. Otrzymane wyniki przedstawiono w postaci graficznej na rysunku 6. 29

ANALIZA PORÓWNAWCZA PROGNOZOWANIA PRODUKCJI BUDOWLANEJ 9 8 7 6 5 4 3 2 Prognoza; Model: (3,,)(,,) Opóź. sezon.: 2 Dane: ARIMA Początek bazy: Koniec bazy: 8 9 8 7 6 5 4 3 2-2 3 4 5 6 7 8 9 2 3 Obserw. Prognozuj ± 9,% Rys. 6. Prognoza ARIMA (3,,) (,,), z opóźnieniem sezonowym 2 dla zmiennej produkcja budowlano montaŝowa 5. ANALIZA WYNIKÓW W tabeli 5 zestawiono wyniki prognoz otrzymanych z metod: regresji, sieci neuronowych i ARIMA. Wykres zaleŝności przedstawiono na rysunku 7. Tabela 5. Wyniki obliczeń regresji zmiennej zaleŝnej Lp DANE REGRESJA SIECI NEURONOWE ARIMA 9 33,3 298,27 42,2 353,88 299,4 35,39 487, 366,5 368,4 324,4 556,4 399,5 2 43,5 358,55 432,4 43, 3 477,9 377,3 33,3 478,8 4 57,8 45,36 299,4 492,93 5 576,6 43,88 368,4 465,78 6 542, 452,86 57,8 463,25 7 669, 47,65 576,6 528,68 8 75,2 48,3 669, 562,3 9 527,9 536,69 527,9 459,6 2 752,4 55,32 752,4 662,4 29

Magdalena ROGALSKA, Zdzisław HEJDUCKI 8 Liniow y w iele zmiennych dane arima sieć regresja v*2c 7 6 5 4 3 2 2 3 4 5 6 7 8 9 2 3 ARIMA DANE SIEĆ NEURONOWA REGRESJA Rys. 7. Prognozy produkcji budowlano montaŝowej metodami regresji, sieci neuronowych w zestawieniu z danymi rzeczywistymi z roku 29 Celem analitycznej oceny poprawności prognozowania 3 metodami obliczono błędy: ME, MAE, MPE i MAPE dane wzorami (4), (5), (6) i (7). Otrzymane wyniki zestawiono w tabeli 6 i na rysunku 8. ME = T n T ( Y i Y p ) i= T n (4) MAE = T n MPE = T n MAPE = T n T i= T n T i= T n T i= T n Y i Y p Y Y i i Y i Y i p Y Y gdzie: ME średni błąd (mean error) MAE średni osiągnięty błąd (mean average error) MPE średni błąd procentowy (mean percentage error) MAPE średni absolutny procentowy błąd (mean absolute percentage error) T suma ilości okresów obliczeniowych i prognozowanych p (5) (6) (7) 292

ANALIZA PORÓWNAWCZA PROGNOZOWANIA PRODUKCJI BUDOWLANEJ n ilość okresów prognozowanych Y i wartość rzeczywista zmiennej w okresie i Y p wartość prognozowana zmiennej w okresie i. Tabela 6. Wartości błędów ME, MAE, MPE i MAPE prognoz metodami regresji, sieci neuronowych i ARIMA Prognoza ME [ml zł] MAE [ml zł] MPE [%] MAPE [%] REGRESJA 2,7234 5,875 7,24 7,8522 SIECI NEURONOWE 2,625 8,847 -,582 24,77 ARIMA 46,7298 7,633 5,53 3,4446 2 Wykres słupkow y/kolumnow y w iele zmiennych -regresja, 2- sieci neuronow e, 3 - ARIMA Arkusz48 v*c 8 6 4 2 2 3 4 ME MAE MPE MAPE Rys. 8. Wartości błędów ME, MAE, MPE i MAPE prognoz metodami regresji, sieci neuronowych i ARIMA Najmniejsze błędy prognozy uzyskano w metodzie ARIMA. Błąd MAPE, około 3%, jest zbyt duŝy. W metodach regresji i sieci neuronowych błędy są zbyt wysokie, by mogły być akceptowalne. WNIOSKI Istnieje moŝliwość prognozowania wahań sezonowych produkcji budowlano montaŝowej w metodach regresji i sieci neuronowych, natomiast dane pogodowe są słabym predyktorem funkcji trendu prognozy w tych metodach. Produkcja budowlano 293

Magdalena ROGALSKA, Zdzisław HEJDUCKI montaŝowa rośnie wykładniczo znacznie szybciej niŝ ocieplenie klimatu (rys. 9). Zatem naleŝy w dalszych badaniach poszukiwać takich predyktorów, które umoŝliwią uzyskiwanie mniejszych błędów prognozy. Prognozowanie metodą ARIMA zakończono wynikiem miernym. Nie ma moŝliwości modyfikowania obliczeń przy uŝyciu tej metody, gdyŝ bazuje ona jedynie na wynikach osiąganych w okresach poprzedzających prognozowany okres. Jako Ŝe błędy uzyskane w metodzie ARIMA są najmniejsze, celem dalszych badań będzie znalezienie takich predyktorów dla metod regresji i sieci neuronowych, by osiągnąć mniejsze błędy ME, MAE, MPE i MAPE. 2 Liniowy temperatura maksy malna Arkusz.sta 3v *5c temperatura maksy malna = 9,27-,839*x+,7*x^2 5 temperatura maksymalna 5-5 - -5 6 6 2 26 3 36 4 46 5 56 6 66 7 76 8 86 9 96 6 LITERATURA Rys. 9. Wykres temperatur maksymalnych w województwie dolnośląskim [] Kot S., Jakubowski J., Sokołowski A., Statystyka. Difin, Warszawa 27. [2] Podręcznik internetowy STATISTICA, [online] [dostęp: 2]. Dostępny w Internecie: http://www.statsoft.pl/ textbook/sttimser.html COMPARATIVE ANALYSIS OF BUILDING PRODUCTION FORECASTING USING REGRESSION, NEURAL NETWORKS AND ARIMA METHODS Summary The study analyzed the possibility of forecasting of Lower Silesia building production using regression, neural networks and ARIMA methods. For the forecasting regression method, daily 294

ANALIZA PORÓWNAWCZA PROGNOZOWANIA PRODUKCJI BUDOWLANEJ weather data of Lower Silesia were used. Potential predictors were eliminated by checking the following: the normality of their distributions (Kolmogorov-Smirnov, Lilliefoes and Chi square tests), the condition of absence of correlation between variables (correlation coefficient) and the condition of equality of variance between the variables (Levene, Brown-Forsythe tests). To perform calculations with the neural networks method, MLP and RBF networks were used by entering all the weather data obtained. In the case of the ARIMA method, forecasting was carried out on the basis of statistical values from previous years. An analysis of errors was performed by calculating ME, MAE, MPE and MAPE errors. The direction of further research was proposed. Key words: forecasting, building and assembling production, regression, neural networks, ARIMA Artykuł recenzował: płk dr hab. inŝ. Dariusz SKORUPKA, prof. nadzw. WSOWL 295