DRZEWA REGRESYJNE I LASY LOSOWE JAKO NARZĘDZIA PREDYKCJI SZEREGÓW CZASOWYCH Z WAHANIAMI SEZONOWYMI Grzegorz Dudek Instytut Informatyki Wydział Elektryczny Politechnika Częstochowska www.gdudek.el.pcz.pl VI spotkanie Polskiej Grupy Badawczej Systemów Uczących się Częstochowa, 4.4.26 r.
PROBLEM PREDYKCJI SZEREGU CZASOWEGO Predykcja szeregu czasowego z wieloma cyklami wahań sezonowych w horyzoncie τ na podstawie przebiegu historycznego. 2 P, GW 5 22 23 24 Rok P, GW 22 2 8 6 4 zima wiosna lato jesień 2 pn 24 wt 48 śr 72 cz 96 pt 2 sb 44 nd 68 Godzina Obciążenie system elektroenergetycznego z cyklami rocznymi, tygodniowymi i dobowymi 2
IDEA 3
IDEA 4
5 Definicja obrazów cykli dobowych Obrazy wejściowe i = [ i, i,2 i,n ] odwzorowują wyrazy poprzedzające moment prognozy obciążenia doby i: P i = [P i, P i,2 P i,n ] = = = n j i j i i t i t i t i P P P P P g 2,,,, Obrazy i są unormowanymi wersjami wektorów P i Ich długość jest jednostkowa, średnia zerowa, a wariancja jednakowa REPREZENTACJA SZEREGÓW CZASOWYCH
REPREZENTACJA SZEREGÓW CZASOWYCH Obrazy wyjściowe y i = [y i, y i,2 y i,n ] odwzorowują wyrazy w okresie prognozowanym w kolejnych chwilach doby prognozy i+τ: P i+τ = [P i+τ, P i+τ,2 P i+τ,n ] y i, t = h P i+ τ, t = n P j= i+ τ, t P i, j P i P i 2 Inne definicje obrazów: Dudek G.: Systemy uczące się oparte na podobieństwie obrazów do prognozowania szeregów czasowych obciążeń elektroeneregtycznych. EXIT, Warszawa 22 Dudek G.: Pattern Similarity-based Methods for Short-term Load Forecasting Part : Principles. Applied Soft Computing, vol. 37, pp. 277-287, 25 6
REPREZENTACJA SZEREGÓW CZASOWYCH Cel Odfiltrowanie trendu i cykli dłuższych niż podstawowy dobowy, sprowadzenie szeregu do stacjonarności 4 2 Zima P.5 Lato 24 48 72 96 2 44 68 Godziny Obrazy.5 -.5 24 48 72 96 2 44 68 Obrazy y.5 y.5 -.5 24 48 72 96 2 44 68 7
IDEA MODELI PROGNOSTYCZNYCH OPARTYCH NA REPREZENTACJA PODOBIEŃSTWIE SZEREGÓW CZASOWYCH OBRAZÓW MODEL Model prognostyczny f : X Y Wyjściem modelu jest prognoza obrazu y lub jego składowej Prognoza wyrazów szeregu czasowego P + P n 2 i+ τ, t = h Pi + τ, t = yi, t Pi, j Pi j= i 8
DRZEWO REGRESYJNE CART Cechy Reprezentacja drzewiasta lub zbiór reguł decyzyjnych jeśli to Działanie na zmiennych ilościowych i jakościowych Podział przestrzeni cech na hiper-prostopadłościany Lokalna aproksymacja funkcji stałą wewnątrz hiperprostopadłościanu aproksymacja dyskretna Zależnie od funkcji docelowej drzewo decyzyjne może pełnić rolę klasyfikatora lub modelu regresyjnego 9
DRZEWO REGRESYJNE CART T <2. N T N T N <. <3.5 y=3. y=2.6 y=3.2 T <4 N y=4. y=4.2 y 4.2 4. 3.2 3. 2.6. 2. 3.5 4.
DRZEWO REGRESYJNE Z ROZMYTYMI WĘZŁAMI Sposób konstrukcji drzewa regresyjnego z rozmytymi węzłami jest taki sam jak drzewa w wariancie podstawowym Testy przeprowadzanie w węzłach pośrednich zmieniają postać:, jeśli i > θi T = T =,, jeśli i θi.8.6.5.4.2 Lewa gałąź Prawa gałąź -2 - θ 2,5, jeśli i θi a,5 =, jeśli i θi + a, 5,5 a i θ +,5, jeśli θi > i > θi + a a.8.6.5.4.2 Lewa gałąź Prawa gałąź -2 - θ 2 = + ep a i θ i = Dudek G.: Prognozowanie krótkoterminowe obciążeń systemów elektroenergetycznych z wykorzystaniem rozmytych drzew regresyjnych. Przegląd Elektrotechniczny, r. 9, nr 4, s. 8-, 24.
2,75,2,7,9,2,7,26,2,83,2,8,9 2 3 3 2 3 3 2 2 = + + + = + + + = y y y y y DRZEWO REGRESYJNE Z ROZMYTYMI WĘZŁAMI
LAS LOSOWY. Powtarzaj dla każdego drzewa dla k = do K.. Wylosuj ze zbioru uczącego próbę bootstrapową o rozmiarze N.2. Zbuduj drzewo T k na próbie bootstrapowej, powtarzając dla każdego węzła, jeśli jego rozmiar jest większy od m.2.. Wylosuj F n składowych obrazu.2.2. Znajdź składową i i wartość progową θ i przegląd zupełny.2.3. Rozdziel węzeł na dwa węzły potomne 2. Zwróć drzewa {T k } k=, 2,, K Wyznaczenie prognozy dla obrazu : f = K K T k k= Hastie T., Tibshirani R., Friedman J.: The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer 29 3
BADANIA SYMULACYJNE Dane Szereg czasowy obciążeń krajowego systemu elektroenergetycznego w okresie 22-24 Problem prognostyczny Prognoza obciążeń godzinowych w kolejnych dniach stycznia i lipca 24, τ = Zbiór uczący Zbiór uczący zawierał przykłady reprezentujące te same typy dni tygodnia, co przykład testowy Błąd prognozy MAPE = M M j= P P j P j j 4
BADANIA SYMULACYJNE Drzewo regresyjne CART Parametr - m przegląd zupełny, local leave-one-out.6636 <.2544 >=.2544 6 < -.2545 4 < 6 -.2996 >= -.2545 4 >= -.2996.937 2 < -.263239 2 >= -.263239.8759.25742.22665.2227.528 6 < -.26788.8445 <.59799 3 < -.333753.28 7 < -.4694.896.7587.492 24 < -.49864 8 < -.3898 8 >= -.3898 7 < -.965465 7 >= -.965465 6 < -.3554 6 >= -.3554 6 >= -.26788 >=.59799.262 3 >= -.333753 7 >= -.4694 24 >= -.49864 Drzewo regresyjne utworzone w zadaniu prognozy obciążenia dn..7.24 r. o godz. 2, m = 8 N u m e r p ró b k i t e s t o w e j 6 5 4 3 2 6 55 5 45 4 35 3 25 2 5 5 5 5 2 25 Godzina Optymalne wartości m 5
BADANIA SYMULACYJNE Drzewo regresyjne z rozmytymi węzłami Fuzzy CART Parametr - kąt nachylenia funkcji przynależności α przegląd zupełny, local leave-one-out Wariant drzewa Parametry MAPE wal MAPE tst CART m = var,27,42 Fuzzy CART m = m CART, α = var,2,33 Fuzzy CART m = 3, α = var,22,36 Fuzzy CART m =, α = var,22,33 Fuzzy CART m = m CART, α = var,3,3 Fuzzy CART m = 3, α = var,23,42 Częstość.4.3.2. 2 3 4 5 6 7 8 9 α Histogram optymalnych kątów nachylenia funkcji przynależności Fuzzy CART m =, α = var,23,35 Fuzzy CART m = m CART, α,, α m = var,74,37 6
BADANIA SYMULACYJNE Las losowy Parametry - liczba drzew K, liczba składowych F, m przegląd zupełny, out-of-bag 7-3 3.9-3.25-3 5 MSE 6 5 4 F = 8 m = MSE 3.8 3.7 3.6 3.5 3.4 K = m = Frequency.2.5..5 4.5 4 3.5 MSE 3 2 3 4 5 K 3.3 2 4 6 8 2 4 6 8 2 22 24 F 5 5 2 m 3 Dudek G.: Short-Term Load Forecasting using Random Forests. In: Filev D. et al. eds.: Intelligent Systems 24, Advances in Intelligent Systems and Computing 323, pp. 82-828, 25. 7
BADANIA SYMULACYJNE Las losowy Ważność składowych Importance Forecast for: January 5, hour July, hour.5 Importance Forecast for: January 5, hour 2 July, hour 2.4.2 Importance.6.4.2 Forecast for: January 5, hour 24 July, hour 24 2 Variable -.2 2 Variable -.2 2 Variable 8
BADANIA SYMULACYJNE Wyniki Model Styczeń Lipiec Średni MAPE tst IQR MAPE tst IQR MAPE tst IQR Las losowy.42.39.92.98.6.7 CART.7.58.6.7.42.39 Fuzzy CART.62.47.3.2.37.35 ARIMA 2.64 2.34.2.24.9.67 Wygładzanie wykładnicze Sieć neuronowa Prognoza naiwna 2.35.88.9.3.76.56.32.3.97..4.5 6.37 5.36.29.2 3.78 3.82 9
BADANIA SYMULACYJNE Rozkład błędów Number of observations 2 RF 2 CART 2 Fuzzy CART -5 5 PE -5 5-5 5 2 ARIMA 2 ES 2 ANN -5 5-5 5-5 5 2
WNIOSKI Reprezentacja szeregów czasowych za pomocą obrazów cykli sezonowych ułatwia prognozowanie szeregów niestacjonarnych z trendem i wieloma cyklami wahań sezonowych Model prognostyczne oparte na drzewach regresyjnych wyróżnia prosta i zrozumiała budowa oraz niewielka liczba parametrów Rozmyta wersja drzew regresyjnych pozwala sterować równowagą między obciążeniem i wariancją modelu Lasy losowe jako komitet słabych uczniów pozwalają zredukować błąd prognozy i uzyskać stabilniejsze rezultaty 2
Dziękuję za uwagę 22