40/17 ARCHIWUM ODLEWNICTWA Rok 2005, Rocznik 5, Nr 17 Archives of Foundry Year 2005, Volume 5, Book 17 PAN - Katowice PL ISSN 1642-5308 PROGNOZOWANIE SZEREGÓW CZASOWYCH WIELKOŚCI SPRZEDAŻY W ZAKŁADZIE ODLEWNICZYM J. SZYMSZAL 1, G. PUCKA 2, A. GIEREK 3, J. PRZONDZIONO 4 Katedra Technologii Stopów Metali i Kompozytów; Politechnika Śląska, 40-019 Katowice, ul. Krasińskiego 8 STRESZCZENIE W artykule przedstawiono wybrane metody prognozowania szeregów czasowych ujmujących liczbę sprzedanych odlewów w określonym okresie sprawozdawczym. Wykorzystano metody bazujące na modelach wyznaczonych dzięki zastosowaniu metod analizy regresji i korelacji, autokorelacji i autoregresji oraz statystyki Durbina-Watsona. Przedstawiono również metodę wygładzania szeregu czasowego w oparciu o średnie ruchome oraz wygładzanie wykładnicze wraz z wyznaczeniem miar dokładności prognozy. Keywords: methodology of predicting, time series, logistics 1. WSTĘP Termin prognoza używany jest dość powszechnie w języku codziennym, jednakże omawiając szczegółowo metody prognozowania musimy podać definicję samego pojęcia prognoza. Najczęściej pojęcie to definiujemy jako: zapowiedź, przewidywany skutek czegoś, wysuwany na podstawie specjalistycznych badań w danej dziedzinie [1]. Można zauważyć, że w tej klasycznej definicji pojęcia prognoza występują dwa czynniki: pierwszy to wskazanie co ma być przewidywane (p rognozzowane), drugi zaś, jakie wykorzystać metody by tego dokonać. Interesować nas będzie przyszły popyt na produkty (odlewy) wybranego zakładu odlewniczego. 1 dr inż., e-mail: SZYMSZAL@polsl.katowice.pl 2 dr inż.,grzegorz.pucka@polsl.pl 3 prof. zw. dr. hab. inż.,gierek.adam@polsl.pl 4 dr inż., 325
Dodajmy, że prognoza popytu jest często traktowana jako równoznaczna z prog - nozą sprzedaży, a w rzeczywistości pomiędzy popytem i sprzedażą zachodzi istotna różnica gdyż wielkość popytu może zostać uznana za niezależną od wielkości oferty producenta, która może być mniejsza lub większa od popytu. W naszym przypadku założymy, że podaż w badanym okresie czasu przewyższała popyt. 2. AUTOKORELACJA I AUTOREGRESJA Autokorelacja i autoregresja należą do technik analizy szeregów czasowych danych charakteryzujących się takimi wahaniami, w których sąsiadujące obserwacje mają z reguły zbliżone wartości, natomiast różnice między obserwacjami odległymi mogą być dość duże. Dodajmy jeszcze, że jeśli wahania szeregu czasowego mają charakter sezonowy, to stosujemy regresję z użyciem flag kategorii, modele AR (wyższych rzędów) lub prowadzimy klasyczną dekompozycję szeregu czasowego [3]. Rozpatrzmy szereg czasowy ujmujący liczbę sprzedanych odlewów [szt.] na przestrzeni 20 miesięcy przez konkretny zakład odlewniczy [2]. Dane wprowadzone do arkusza kalkulacyjnego (Excela) wraz z wykresem ujmującym wielkość sprzedaży w przeciągu badanego okresu (20 miesięcy) przedstawia rys. 1. 326 Rys. 1. Szereg czasowy ujmujący wielkość sprzedaży w ciągu 20 miesięcy wraz z wykresem Fig. 1. Time series including sale volume during 20 months with the relevant graph 2.1. Dopasowanie linii prostej Po dokładnym przyjrzeniu się wykresowi przedstawiającego wielkość sprzedaży w badanym okresie czasu (rys. 1) dochodzimy do wniosku, że do naszych danych wielkości sprzedaży można dopasować (wykorzystując metodą analityczną) linię pro stą. Dopasowanie linii prostej przeprowadzimy w Excelu, a do estymacji parametrów tego dopasowania wykorzystamy metodę najmniejszej sumy kwadratów. Do estymacji parametrów liniowej funkcji regresji zastosujemy metodę polegającą na wykorzystaniu narzędzia Regresja, jednego z wielu narzędzi Analizy danych Excela.
ARCHIWUM ODLEWNICTWA Po pojawieniu się okna dialogowego Regresja wypełniamy je w sposób pokazany na rys. 2a. Po zatwierdzeniu tego okna poleceniem OK - uzyskujemy wynik analizy regresji i korelacji (rys. 2b). a) b) Rys. 2. Wypełnione okno dialogowe narzędzia Regresja (a) wraz z fragmentem wyników (b) Fig. 2. Completed dialogue window of Regression tool (a) with fragment of results (b) Równanie prostej regresji ma postać: Dopasowana wielkość sprzedaży = 5827,47 + 9,812*miesiąc, z którego wynika, że miesięczny wzrost sprzedaży wynosił ok. 9,8 sztuk. Uzyskana wartość współczynnika determinacji R 2 (komórka E5) pokazuje, że około 84,25% odchyleń wielkości sprzedaży można wytłumaczyć liniowym trendem wzrostu w czasie. Wartość statystyki t (komórka G18) oraz wartość p (komórka H18) wskazują, że istnieje istotna zależność liniowa wielkości sprzedaży od czasu. Dokładna analiza uzyskanej krzywej regresji wyklucza jednak wykorzystanie jej do prognozo-wania wielkości sprzedaży w przyszłych okresach. Jeśli bowiem przeanalizujemy prostą dopasowaną, to zauważa-my, że przyjęte w tym modelu regresji założenie o losowym rozkładzie reszt (czyli ich wzajemnej niezależności) nie jest słuszne. Można to dostrzec na Rozkładzie reszt wygenerowanym przez narzędzie Regresja (rys. 3). Stwierdzamy więc, że następujące po sobie reszty są skorelowane dodatnio. Taki układ reszt nazywamy autokorelacją i analizujemy go za pomocą statystyki Durbina-Watsona. Autokorelacją nazywamy korelację wartości zmiennej z jej wartościami z okresów wcześniejszych. i e Rys. 3. Wykres rozkładu reszt wraz z danymi Fig. 3. Residulas distribution with the relevant data 327
2.2. Wyznaczenie statystyki Durbina-Watsona Statystykę Durbina-Watsona (oznaczaną jako d) można stosować do testowania korelacji reszt następujących po sobie w szeregu czasowym. Ma ona następującą formułę [3]: d n 2 ei ei 1 i 2 n 2 ei i 1 We wzorze tym e to błędy losowe (reszty), natomiast i to numer okresu (miesiąca) (rys.3). Aby obliczyć tę statystykę w komórce (np. H25), umieszczamy formułę: =SUMA.XMY.2(F26:F44;F25:F43)/SUMA.KWADRATÓW(F25:F44). Statystyka Durbina-Watsona może przyjmować wartości od 0 do 4. Wartości bliskie zeru wskazują na bardzo silną dodatnią autokorelację, wartość 2 oznacza brak autokorelacji, natomiast wartości bliskie 4 wskazują na silną ujemną autokorelację. Uzyskana wartość 0,9173 świadczy o istnieniu dość istotnej dodatniej autokorelacji reszt. Obecnie przeanalizujmy korelację wartości szeregu czasowego z samym sobą, czyli tzw. autokorelację. Bada się w niej korelację zachodzącą między wartością bieżącą a wartościami poprzednimi. Jeśli wartości poprzedniego okresu nazwiemy wartością wstecz, a czas między wartością aktualną a wartością przeszłą przesunięciem wstecz, to wartości oddalone o jeden odstęp czasowy względem bieżącej wartości nazwiemy: WSTECZ 1. 2.3. Wyznaczenie modelu autoregresji W przypadku gdy do analizowania danych (które wykazują istotne autoskorelowanie) zastosujemy regresję, to mamy tzw. autoregresję, a uzyskany dzięki tej technice model to tzw. model autoregresji. Model ten możemy wykorzystywać do badania funkcyjnej zależności pomiędzy bieżącą a poprzednimi wartościami danych. Przygotowanie arkusza do wykonania autokorelacji WSTECZ 1 polega na przeniesieniu do nowego arkusza naszych danych pierwotnych, wstawieniu nowej kolumny B, skopiowaniu do tej kolumny wartości sprzedaży od pierwszej do przedostatniej i wykasowaniu wiersza danych dla pierwszego miesiąca (rys. 4). Do wyznaczenia parametrów modelu AR(1), wartości błędu, który da dodatkowe informacje, oraz uzyskania wartości dopasowanych szeregu czasowego użyjemy ponownie narzędzia analitycznego Regresja. Z uzyskanego oszacowania wynika, że równanie prostej regresji AR(1) ma postać: Sprzedaż = 352,15 + 0,9418 *WSTECZ 1 lub Bieżąca Sprzedaż = 352,15 + 0,9418 *Poprzednia sprzedaż. Uzyskana wartość R 2 (komórka F5 - rys. 4) pokazuje, że około 85,3% odchyleń wielkości sprzedaży można wytłumaczyć prostą liniową autoregresją. Wartość standardowego błędu estymacji dla modelu AR(1) wynosi 25,01 (komórka F7- rys. 4). Wartość p<0,05 (komórka I18) wskazuje, że istnieje istotna statystycznie zależność liniowa AR(1). (1) 328
ARCHIWUM ODLEWNICTWA Rys. 4. Fragment arkusza z oszacowanymi parametrami modelu AR (1) Fig. 4. Spreadsheet with estimated parameters of AR(1) model W oparciu o uzyskaną zależność liniową możemy dokonać prognozy wielkości sprzedaży w kolejnych miesiącach. Wartość prognozowanej sprzedaży w 21 miesiącu można obliczyć jako: Y 21 = 352,15 + 0,9418* Y 20 Y 21 = 6012,37 W końcowym etapie budujemy wykres szeregu czasowego ukazującego wartości rzeczywiste i dopasowane (rys. 5). Rys. 5. Wykres szeregu czasowego ukazujący wartości rzeczywiste i dopasowane linią AR(1) Fig.5. Graph of time series showing true values and ones fitted by AR(1) line 3. METODY WYGŁADZANIA SZEREGU CZASOWEGO Głównym celem wygładzania jest eliminacja przypadkowych i sezonowych wahań, dzięki czemu można uwidocznić długookresowe zachowanie szeregu czaso - wego. Po wprowadzeniu danych do nowego arkusza kalkulacyjnego wykonujemy wykres przedstawiający wielkość sprzedaży w ciągu badanego okresu (rys. 6). 329
Rys. 6. Dane wielkości sprzedaży wraz z wykresem Fig.6. Selling volume data with the relevant graph 3.1. Wykorzystanie średniej ruchomej Metoda, która pozwoli nam w prosty sposób dołączyć do wykresu linię wyrażająca średnią ruchomą, oraz dane do jej wykreślenia polega na zastosowaniu Narzędzie analizy danych - Średnia ruchoma (rys. 7a). Na wstępie do komórek C1 i D1 (rys. 7b) wpisujemy odpowiednio etykiety: Średnia_Ruchoma i Błąd_Std. a) b) Rys. 7. Wypełnione okno dialogowe narzędzia Średnia ruchoma (a) wraz z wynikami (b) Fig. 7. Completed dialogue window of Movable mean tool (a) with the results (b) Po uzyskaniu wyników zauważamy, że Narzędzie analityczne Średnia ruchoma umieszcza w arkuszu nie wyniki, ale formuły. Każda średnia jest obliczana na podstawie czterech wartości: bieżącej i trzech poprzednich (przyjęliśmy Odstęp = 4), a każdy błąd standardowy jest obliczany dla czterech ostatnich wartości (rys. 7b). W uproszczonym prognozowaniu jako prognozę możemy wykorzystać ostatnią średnią ruchomą, tj. 8331,5 (komórka C21 - rys. 7b) z błędem standardowym równym 506,05 (komórka D21 - rys. 7b) jako miarą tolerancji. Aby jednak uzyskać najlepszą prognozę, na tę prognozę powinna zostać nałożona prognoza dotycząca wahań sezonowych. 330
ARCHIWUM ODLEWNICTWA 3.2. Wygładzanie wykładnicze Wygładzanie za pomocą średniej ruchomej wykorzystuje określoną liczbę wartości empirycznych. W przypadku szeregu czasowego z wahaniami sezonowymi liczba wartości do obliczenia średniej ruchomej wynika zazwyczaj z długości cyklu. W wygładzaniu wykładniczym szeregu czasowego (zamiast skończonej liczby wartości) bierze się pod uwagę (przynajmniej teoretycznie) wszystkie wartości szeregu. Najczęściej wygładzanie i prognozowanie prowadzimy wykorzystując prostą formułę rekurencyjną: prognoza t+1 = *bieżąca t + (1- )*prognoza t (2) gdzie: to tzw. stała wygładzania (parametr wagowy) - liczba z przedziału od 0 do 1. Prognozę na okres t+1 (prognoza t+1 ) możemy interpretować jako wypukłą kombinację liniową zrealizowanego wyniku bieżąca t. Przypomnijmy, że wypukła kombinacja liniowa dwóch liczb zwraca liczbę leżącą między nimi. Przyjmując zatem stałą wygładzania równą 1, otrzymamy wynik mało różniący się od bieżąca t, gdyż wtedy współczynnik (1- ) będzie bliski 0. Ponieważ stała wygładzania ustalana jest przez prognozującego, jej wybór można interpretować jako wyrażenie stopnia zaufania do powtórzenia się wyniku rzeczywistego. Przy wyborze stałej wygładzania bliskiej 1 prognozujący bardziej ufa realizacjom niż prognozom. Wybór stałej wygładzania bliskiej 0 możemy uznać za wyraz większego zaufania do wyniku prognozy. W celu wyznaczenia prognozy na okres t+1 niezbędne jest dokonywanie prognoz na wszystkie poprzedzające okresy, aby w ostatecznej fazie móc się odwołać do prognozy na okres t. Powyższa procedura wymaga wybrania dwóch wartości: wartości prognozy początkowej prognoza 1 dla naszej prognozy przyjmiemy średnią z pierwszych sześciu wartości empirycznych, właściwej wartości stałej wygładzania - wyznaczymy ją minimalizując wybrany błąd prognozy za pomocą narzędzia Solver. Z przytoczonej formuły wynika, że w wygładzaniu wykładniczym prognoza dla drugiego okresu jest oparta na wartości rzeczywistej z pierwszego okresu. Dodajmy jeszcze, że (1- ), to w Excelu jest tzw. współczynnik tłumienia, który wprowadzamy jako parametr. Czyli aby (stała wygładzania) była równa 0,2, to współczynnik tłumienia (wprowadzony do Excela) powinien być równy 0,8. Po wczytaniu danych wielkości sprzedaży do nowego arkusza do komórek C1 i D1 wpisujemy etykiety odpowiednio: Prognoza i BłądStd (rys. 8b). Nasze dane uzupełniamy o dodanie jednego wiersza (po wierszu nagłówka), i w komórce B2 obliczamy średnią z pierwszych sześciu wartości rzeczywistych szeregu. Wartość tę traktujemy jako początkową wielkość prognozy (rys. 8b). Następnie z menu Narzędzia wybieramy Analiza danych, a następnie Narzędzie analizy: Wygładzanie wykładnicze. Pojawia się okno dialogowe Wygładzania wykładnicze, które wypełniamy jak na rys. 8a. Do wyznaczenia optymalnej wartości stałej wygładzania, wykorzystamy kryterium błędu oparte o pierwiastek kwadratowy ze średniego błędu kwadratowego (RMSE - Root-Mean Square Error) [3]: 331
a) Rys. 8. Wypełnione okno dialogowe narzędzia Wygładzanie wykładnicze (a) wraz z wynikami (b) Fig. 8. Completed dialogue window of Exponential smoothing tool (a) with the results (b) 332 gdzie: Z t - wartość rzeczywista w okresie t Z (1) t 1 - prognoza zmiennej Z 1 okres do przodu, w której okresem wyjściowym prognozy jest okres t-1. Po wykorzystaniu narzędzia Solver minimalizującego wartość błędu RMSE stwierdzono, że wartość tego błędu jest najmniejsza (równa ok. 558), gdy a jest równe 0,424. Prognoza popytu na 21 miesiąc jest wtedy równa 8188 [szt.]. 4. PODSUMOWANIE Statystyczna analiza szeregu czasowego jest w obecnym okresie nieodzownym składnikiem działalności przedsiębiorstwa produkcyjnego, gdyż bez niej trudnym staje się utrzymanie i zwiększenie efektywności i konkurencyjności na rynku. LITERATURA [1] Słownik współczesnego języka polskiego. Wyd. WILGA, Warszawa, (1996). [2] Szymszal J., Blacha L.: Wspomaganie decyzji optymalnych w metalurgii i inżynierii materiałowej, Wyd. Pol. Śl., Wyd. II., Gliwice (2005). [3] Aczel A.D.: Statystyka w zarządzaniu. Wyd. Naukowe PWN, Warszawa (2004). METHODOLOGY OF PREDICTING TIME SERIES SALE VOLUME IN FOUNDRY PLANT SUMMARY RMSE n t 1 [ Z Z (1)] t n t 1 2 b) The paper has presented chosen methods of predicting time series embracing number of sold castings during specified reporting period. The methods based on models determined through use of regression and correlation analysis, autocorrelatio n and autoregression as well as Durbin-Watson statistic were applied. Methodology of time series smoothing on the basis of movable means and exponential smoothing with determination of prediction accuracy measures was presented as well. Recenzował: prof. dr hab. inż. Roman Wrona (3)