Ćwiczenie 5 PROGNOZOWANIE Prognozowanie jest procesem przewidywania przyszłych zdarzeń. Obszary zastosowań prognozowania obejmują np. analizę danych giełdowych, przewidywanie zapotrzebowania na pracowników, analizę trendów produkcji i sprzedaży, przewidywanie zużycia surowców, opracowanie urzędowych danych statystycznych, analizę wyników eksperymentów naukowych, itp. Wspólnymi cechami prognozowania są: - założenie, że podstawowe współzależności opisujące badany system będą istniały w przyszłości, - zmniejszanie się dokładności prognozowania wraz z czasem, - dokładność wyników prognozowania dla grup zjawisk jest zazwyczaj większa niż dla pojedynczych zjawisk - dokładność prognozowania zwiększa się wraz ze wzrostem liczby parametrów w modelu. Podstawowymi metodami prognozowania są: - analiza regresji, - analiza szeregów czasowych. Zarówno metody analizy regresji, jak i szeregów czasowych, można wykorzystać do uzupełniania brakujących danych w zbiorze danych, do diagnozowania badanych zjawisk oraz do prognozowania przebiegu badanych zjawisk w przyszłości. ANALIZA REGRESJI Termin regresja oznacza zależność funkcyjną pomiędzy zmienną niezależną X (lub kilkoma zmiennymi niezależnymi X 1, X 2, X n ) a zmienną zależną Y, tzn. szukamy zależności postaci: lub Y = f (X) + ε Regresja liniowa prosta Y = f (X 1, X 2,... X n ) + ε Opisuje zależność między cechami X i Y w postaci funkcji liniowej: Y = a + b X + ε Istnieją przy tym metody umożliwiające oszacowanie nieznanych parametrów a i b oraz nieznanej wariancji σ 2 losowego błędu ε. gdzie ε jest błędem losowym o rozkładzie normalnym o wartości oczekiwanej E(ε) = 0 i nieznanej wariancji, czyli N(0, σ). 1
Regresja nieliniowa prosta Opisuje zależność nieliniową typu: G(Y) = a + b H(X) + ε gdzie G i H są znanymi funkcjami. Wybrane modele nieliniowe oparte na powyższej zależności: model wykładniczy (exponential) Y e a b X model odwrotnościowy Y (reciprocal Y) model potęgowy (multiplicative) 1 Y a b X Y a b X model logarytmiczny (logarithmic) Y a b ln(x ) model pierwiastkowy X (square root X) Y a b X model pierwiastkowy Y (square root Y) 2 Y a b X Regresja wielomianowa pojedyncza (nieliniowa) Model ten stosujemy wtedy, gdy spodziewamy się, że zależność Y od X jest nieliniowa i jest szczególnej postaci, mianowicie ma postać zależności wielomianowej. Możemy wtedy dopasować model zależności typu wielomianowego, w którym n jest stopniem wielomianu, tzn. Y = b 0 + b 1 X + b 2 X 2 + + b n X n + ε, gdzie ε jest zmienną losową jak w modelu regresji prostej. Regresja liniowa wielokrotna Polega ona na znalezieniu zależności liniowej pomiędzy zmienną zależną Y a zmiennymi niezależnymi X 1, X 2, Xn, tzn. szukamy współczynników a 0, a 1, a n takich, że Y = a 0 + a 1 X 1 + a 2 X 2 + + a n X n + ε. 2
Procedury programu STATGRAPHICS Aby wyznaczyć model regresji prostej dla zmiennej niezależnej X i zmiennej zależnej Y należy wybrać narzędzie Relate / Simple Regression i wskazać, która zmienna jest niezależna a która zależna. W oknie analizy domyślnym modelem jest model liniowy. Aby znaleźć model najlepiej dopasowany dla zmiennych należy spośród opcji tekstowych wybrać Comparison of Alternative Models. Najlepszym model dla badanych cech jest pierwszy model z listy. Jest to model o największej wartości R kwadrat. Aby wykonać analizę dla wybranego modelu należy zaznaczyć jego nazwę w opcjach panelu Regression Analysis. Opcja tekstowa Forecasts umożliwia wyznaczenie nieznanych wartości zmiennej zależnej Y na podstawie podanych (w opcjach panelu) wartości zmiennej niezależnej X. W celu przeprowadzenia analizy regresji wielomianowej należy: w poleceniu Relate wybrać Polynomial Regression, a dla regresji wielokrotnej: w poleceniu Relate wybrać Multiple Regression. SZEREGI CZASOWE Szereg czasowy jest zbiorem danych pochodzących z następujących po sobie punktów czasowych (np. sprzedaż roczna z dziesięciu kolejnych lat). Tworzą go więc obserwacje Y 1, Y 2, Y n pewnej zmiennej losowej Y, dokonywane w równych odstępach czasu. Przyjmujemy, że Y jest zależną od czasu zmienną losową, a zmiany jej wartości oczekiwanych są opisywane następująco: Y t =E(Y t ) + ε t t = 1, 2,, n gdzie: E(Y t ) = f(t) + α(t) ( 1 ) E(Y t ) = f(t) * α(t) ( 2 ) ε t błąd losowy, f(t) funkcja czasu zwana trendem, α(t) regularne wahania sezonowe nakładające się na trend: - w sposób addytywny w przypadku zależności ( 1 ), i - w sposób multiplikatywny w przypadku ( 2 ). Błąd losowy ε t odzwierciedla przypadkowe odchylenie wartości badanej cechy od jej wartości oczekiwanej. Powstaje on na skutek między innymi: - losowego charakteru opisywanych zjawisk, - niedoskonałości modelu, - niedokładności przyrządów pomiarowych i - błędów pomiarowych. 3
Trend będziemy rozumieć jako funkcję odzwierciedlającą ogólne długoterminowe zachowanie się danych zmiany badanego zjawiska. Cykle to okresowe wahania danych nawet na bardzo długich przedziałach czasowych (nawet kilka lat), niekoniecznie o tej samej długości i niekoniecznie powtarzające się co ten sam okres. Sezonowość to okresowe wahania danych w stałym przedziale czasowym, które powtarzają się pewną ilość razy. Zakładając, że postać trendu f(t) oraz funkcja α(t) nie są znane, należy oszacować f(t) i α(t) na podstawie obserwacji Y 1, Y 2, Y n. Tak oszacowaną wartość Y t oznaczamy Ŷ t. Następnym zagadnieniem jest wyeliminowanie opisanych powyżej wahań w czasie metodą wyrównania lub wygładzania szeregów czasowych. Metoda ta oparta jest na zastępowaniu szeregu czasowego średnimi ruchomymi. Kolejnym zagadnieniem jest wnioskowanie o przyszłości, czyli obliczanie prognoz wartości cech w przyszłych okresach. Do wyznaczenia prognozy, w programie STATGRAPHICS jest do dyspozycji wiele modeli, jak np.: Linear Trend - model z trendem liniowym Quadratic Trend - model z trendem wielomianowym 2-go stopnia Exponential Trend - model z trendem w postaci wykładniczej Moving Average - średnie ruchome Simple Exponential Smoothing - proste wygładzanie wykładnicze Brown s Linear Exponential Smoothing - proste wyrównanie wykładnicze ze stałą wygładzania α Holt s Linear Exponential Smoothing - wyrównanie wykładnicze z trendem o stałej wygładzania trendu β Przy analizie danych i doborze najlepszego modelu dla tych danych brane są pod uwagę wartości obliczonych błędów: RMSE - średni błąd kwadratowy Najlepszym modelem dla analizowanych MAE - średni błąd absolutny danych, będzie model, w którym wartości ME - błąd przeciętny RMSE i MAE są najmniejsze, MPE - procentowy błąd przeciętny a ME i MPE są najbliższe zeru. 4
Procedury programu STATGRAPHICS Aby przeprowadzić obliczenia metodami analizy szeregów czasowych wybieramy polecenie: Special / Time Series Analysis do dyspozycji mamy cztery moduły: Descriptive Methods (metody opisowe), Smoothing (wygładzanie), Seasonal Decomposition (eliminacja wahań sezonowych), Forecasting (prognozowanie). Metody opisowe służą do badania kształtu, trendu i sposobu zmian oraz historii okresowości danych. Techniki wygładzania pozwalają estymować funkcje i przygotować dane do statystycznych procedur. Eliminacja z szeregu wahań sezonowych pozwala na wydzielenie w danych trzech składowych: trendy, cykle i sezonowość. W module prognozowania badamy te trzy składowe i prognozujemy przyszłe wartości szeregów czasowych. ZADANIA Zadanie 1 Rozważmy zbiór danych CARDATA, który jest przykładowym zbiorem informacji o różnych modelach samochodów, dostępnym w pakiecie STATGRAPHICS. a) zbadać model prostej regresji liniowej dla zależności zmiennej mpg od zmiennej weight. Czy można poprawić stopień dopasowania danych do modelu za pomocą, odpowiednich transformacji rozważanych zmiennych? b) metodami regresji wielokrotnej dopasować najlepszy model opisujący zależność zmiennej mpg od pozostałych zmiennych numerycznych w zbiorze CARDATA. Zadanie 2 Badano wpływ dawki pewnego leku na puls pacjenta. Oto wyniki uzyskane dla 10 osób: Dawka leku 2 2 4 4 8 8 16 16 32 32 Puls 60 58 63 62 67 65 70 70 74 73 Dopasować właściwy model regresji do tych danych. Korzystając z wyznaczonego modelu obliczyć prognozowane wartości pulsu przy dawkach leku równych 20 oraz 40. 5
Zadanie 3 W latach 1991-1995 sprzedaż pewnej marki samochodu w Polsce kształtowała się następująco: Kwartał I II III IV Lata 1991 340 380 560 380 1992 440 460 615 450 1993 516 570 685 560 1994 610 630 770 660 1995 630 610 900 740 a) wyrównać podany szereg metodą średniej ruchomej wyznaczając 3-okresowe i 4-okresowe średnie ruchome. b) dokonać pomiaru wahań okresowych w sprzedaży samochodów i wyeliminować je z szeregu czasowego. c) obliczyć popyt na produkt w 1996 roku poznanymi metodami analizy szeregów czasowych; dokonać wyrównania szeregu czasowego metodą wyrównywania wykładniczego z trendem przyjmując stałą a = 0,1 oraz 0,3 oraz β = 0,1 oraz 0,4, d) narysować szereg czasowy. Zadanie 4 Liczba zarejestrowanych samochodów osobowych w Polsce w latach 1980-1992 tworzyła następujący szereg czasowy (w tys. pojazdów): 2383 2634 2882 3179 3426 3671 3964 4232 4519 4846 5261 6112 6505. Wyznaczyć wartości prognozowane na lata 1993-1998, stosując metody analizy szeregów czasowych. 6