DRZEWA REGRESYJNE I LASY LOSOWE JAKO

Podobne dokumenty
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

3. Analiza własności szeregu czasowego i wybór typu modelu

Prognozowanie krótkoterminowe w procesie planowania zasobów

SYSTEMY UCZĄCE SIĘ WYKŁAD 1. INFORMACJE WSTĘPNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

KRÓTKOTERMINOWE PROGNOZOWANIE ZAPOTRZEBOWANIA NA ENERGIĘ ELEKTRYCZNĄ ODBIORCÓW WIEJSKICH PRZY WYKORZYSTANIU MODELI MAMDANIEGO

Drzewa decyzyjne i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

SZTUCZNA INTELIGENCJA

5. Model sezonowości i autoregresji zmiennej prognozowanej

Metody klasyfikacji danych - część 1 p.1/24

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Spis treści 3 SPIS TREŚCI

3. Modele tendencji czasowej w prognozowaniu

ALGORYTM RANDOM FOREST

Inżynieria Rolnicza 5(114)/2009

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Prognozowanie popytu. mgr inż. Michał Adamczak

PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING

Monte Carlo, bootstrap, jacknife

WYKORZYSTANIE MODELI MAMDANIEGO DO PREDYKCJI DOBOWYCH OBCIĄŻEŃ WIEJSKICH SIECI ELEKTROENERGETYCZNYCH

Prognozowanie cen surowców w rolnych na podstawie szeregów w czasowych - uwarunkowania i metody. Sylwia Grudkowska NBP Mariusz Hamulczuk IERIGś-PIB

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy klasyfikacji

XGBOOST JAKO NARZĘDZIE PROGNOZOWANIA SZEREGÓW CZASOWYCH

Inżynieria Rolnicza 5(114)/2009

PROGNOZOWANIE CEN ENERGII NA RYNKU BILANSUJĄCYM

4. Średnia i autoregresja zmiennej prognozowanej

Metody konstrukcji oraz symulacyjne badanie właściwości jednorodnych i niejednorodnych komitetów klasyfikatorów

FORECASTING THE DISTRIBUTION OF AMOUNT OF UNEMPLOYED BY THE REGIONS

Analiza autokorelacji

Ćwiczenie 5 PROGNOZOWANIE

PROGNOZOWANIE W ZARZĄDZANIU

Prognozowanie zanieczyszczeń atmosferycznych przy użyciu sieci neuronowych

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Analiza danych. TEMATYKA PRZEDMIOTU

Wprowadzenie do teorii prognozowania

Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

WYKORZYSTANIE MODELI TAKAGI SUGENO DO KRÓTKOTERMINOWEGO PROGNOZOWANIA ZAPOTRZEBOWANIA NA ENERGIĘ ELEKTRYCZNĄ ODBIORCÓW WIEJSKICH

Jakość uczenia i generalizacja

Testowanie modeli predykcyjnych

Analiza obciążenia stacji elektroenergetycznych WN/SN z różną strukturą odbiorców

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

ANALIZA MODELU KRÓTKOTERMINOWEGO PROGNOZOWANIA OBCIĄŻEŃ SYSTEMÓW ELEKTROENERGETYCZNYCH OPARTEGO NA KLASTERYZACJI ROZMYTEJ**

TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE

Ćwiczenia IV

INFOBAZY 2014 VII KRAJOWA KONFERENCJA NAUKOWA INSPIRACJA - INTEGRACJA - IMPLEMENTACJA

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

KLASYFIKACJA. Słownik języka polskiego

SZTUCZNA INTELIGENCJA

w ekonomii, finansach i towaroznawstwie

PROGNOZOWANIE I SYMULACJE EXCEL 1 AUTOR: MARTYNA MALAK PROGNOZOWANIE I SYMULACJE EXCEL 1 AUTOR: MARTYNA MALAK

Ekonometria Wykład 4 Prognozowanie, sezonowość. Dr Michał Gradzewicz Katedra Ekonomii I KAE

SZTUCZNA INTELIGENCJA


ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

SZTUCZNA INTELIGENCJA

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Spis treści. Przedmowa

PRZEWODNIK PO PRZEDMIOCIE

Zastosowanie rozmytych map kognitywnych do badania scenariuszy rozwoju jednostek naukowo-dydaktycznych

Ekonometria. Modele dynamiczne. Paweł Cibis 27 kwietnia 2006

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

WYKORZYSTANIE REGRESJI NIEPARAMETRYCZNEJ DO MODELOWANIA WIELKOŚCI OSZCZĘDNOŚCI GOSPODARSTW DOMOWYCH

Testowanie hipotez statystycznych.

WYKORZYSTANIE MODELU ARIMA DO ANALIZY SZEREGU CZASOWEGO

Po co w ogóle prognozujemy?

Testowanie hipotez statystycznych

Organizacja i monitorowanie procesów magazynowych / Stanisław

Statystyka Małych Obszarów w badaniach próbkowych

Zajęcia 1. Statystyki opisowe

Prognozowanie liczby pacjentów poradni ortopedycznej

Opis efektów kształcenia dla modułu zajęć

KRÓTKOOKRESOWE PROGNOZOWANIE CENY EKSPORTOWEJ WĘGLA ROSYJSKIEGO W PORTACH BAŁTYCKICH. Sławomir Śmiech, Monika Papież

Szeregi czasowe, analiza zależności krótkoi długozasięgowych

Statystyka Matematyczna Anna Janicka

ZASTOSOWANIE TECHNIK DATA MINING W BADANIACH NAUKOWYCH

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

... prognozowanie nie jest celem samym w sobie a jedynie narzędziem do celu...

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

Optymalizacja ciągła

PROGNOZOWANIE PRZYCHODÓW ZE SPRZEDAŻY

Zastosowania sieci neuronowych

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

2. Empiryczna wersja klasyfikatora bayesowskiego


Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Uczenie sieci typu MLP

DATA MINING W PROGNOZOWANIU ZAPOTRZEBOWANIA

OD POJEDYNCZYCH DRZEW DO LOSOWEGO LASU

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

PRZEWIDYWANIE WŁAŚCIWOŚCI PRODUKTU Z WYKORZYSTANIEM UCZENIA MASZYN

1. Stacjonarnośd i niestacjonarnośd szeregów czasowych 2. Test ADF i test KPSS 3. Budowa modeli ARMA dla zmiennych niestacjonarnych 4.

Prognozowanie cen surowców w rolnych na podstawie szeregów w czasowych

Transkrypt:

DRZEWA REGRESYJNE I LASY LOSOWE JAKO NARZĘDZIA PREDYKCJI SZEREGÓW CZASOWYCH Z WAHANIAMI SEZONOWYMI Grzegorz Dudek Instytut Informatyki Wydział Elektryczny Politechnika Częstochowska www.gdudek.el.pcz.pl VI spotkanie Polskiej Grupy Badawczej Systemów Uczących się Częstochowa, 4.4.26 r.

PROBLEM PREDYKCJI SZEREGU CZASOWEGO Predykcja szeregu czasowego z wieloma cyklami wahań sezonowych w horyzoncie τ na podstawie przebiegu historycznego. 2 P, GW 5 22 23 24 Rok P, GW 22 2 8 6 4 zima wiosna lato jesień 2 pn 24 wt 48 śr 72 cz 96 pt 2 sb 44 nd 68 Godzina Obciążenie system elektroenergetycznego z cyklami rocznymi, tygodniowymi i dobowymi 2

IDEA 3

IDEA 4

5 Definicja obrazów cykli dobowych Obrazy wejściowe i = [ i, i,2 i,n ] odwzorowują wyrazy poprzedzające moment prognozy obciążenia doby i: P i = [P i, P i,2 P i,n ] = = = n j i j i i t i t i t i P P P P P g 2,,,, Obrazy i są unormowanymi wersjami wektorów P i Ich długość jest jednostkowa, średnia zerowa, a wariancja jednakowa REPREZENTACJA SZEREGÓW CZASOWYCH

REPREZENTACJA SZEREGÓW CZASOWYCH Obrazy wyjściowe y i = [y i, y i,2 y i,n ] odwzorowują wyrazy w okresie prognozowanym w kolejnych chwilach doby prognozy i+τ: P i+τ = [P i+τ, P i+τ,2 P i+τ,n ] y i, t = h P i+ τ, t = n P j= i+ τ, t P i, j P i P i 2 Inne definicje obrazów: Dudek G.: Systemy uczące się oparte na podobieństwie obrazów do prognozowania szeregów czasowych obciążeń elektroeneregtycznych. EXIT, Warszawa 22 Dudek G.: Pattern Similarity-based Methods for Short-term Load Forecasting Part : Principles. Applied Soft Computing, vol. 37, pp. 277-287, 25 6

REPREZENTACJA SZEREGÓW CZASOWYCH Cel Odfiltrowanie trendu i cykli dłuższych niż podstawowy dobowy, sprowadzenie szeregu do stacjonarności 4 2 Zima P.5 Lato 24 48 72 96 2 44 68 Godziny Obrazy.5 -.5 24 48 72 96 2 44 68 Obrazy y.5 y.5 -.5 24 48 72 96 2 44 68 7

IDEA MODELI PROGNOSTYCZNYCH OPARTYCH NA REPREZENTACJA PODOBIEŃSTWIE SZEREGÓW CZASOWYCH OBRAZÓW MODEL Model prognostyczny f : X Y Wyjściem modelu jest prognoza obrazu y lub jego składowej Prognoza wyrazów szeregu czasowego P + P n 2 i+ τ, t = h Pi + τ, t = yi, t Pi, j Pi j= i 8

DRZEWO REGRESYJNE CART Cechy Reprezentacja drzewiasta lub zbiór reguł decyzyjnych jeśli to Działanie na zmiennych ilościowych i jakościowych Podział przestrzeni cech na hiper-prostopadłościany Lokalna aproksymacja funkcji stałą wewnątrz hiperprostopadłościanu aproksymacja dyskretna Zależnie od funkcji docelowej drzewo decyzyjne może pełnić rolę klasyfikatora lub modelu regresyjnego 9

DRZEWO REGRESYJNE CART T <2. N T N T N <. <3.5 y=3. y=2.6 y=3.2 T <4 N y=4. y=4.2 y 4.2 4. 3.2 3. 2.6. 2. 3.5 4.

DRZEWO REGRESYJNE Z ROZMYTYMI WĘZŁAMI Sposób konstrukcji drzewa regresyjnego z rozmytymi węzłami jest taki sam jak drzewa w wariancie podstawowym Testy przeprowadzanie w węzłach pośrednich zmieniają postać:, jeśli i > θi T = T =,, jeśli i θi.8.6.5.4.2 Lewa gałąź Prawa gałąź -2 - θ 2,5, jeśli i θi a,5 =, jeśli i θi + a, 5,5 a i θ +,5, jeśli θi > i > θi + a a.8.6.5.4.2 Lewa gałąź Prawa gałąź -2 - θ 2 = + ep a i θ i = Dudek G.: Prognozowanie krótkoterminowe obciążeń systemów elektroenergetycznych z wykorzystaniem rozmytych drzew regresyjnych. Przegląd Elektrotechniczny, r. 9, nr 4, s. 8-, 24.

2,75,2,7,9,2,7,26,2,83,2,8,9 2 3 3 2 3 3 2 2 = + + + = + + + = y y y y y DRZEWO REGRESYJNE Z ROZMYTYMI WĘZŁAMI

LAS LOSOWY. Powtarzaj dla każdego drzewa dla k = do K.. Wylosuj ze zbioru uczącego próbę bootstrapową o rozmiarze N.2. Zbuduj drzewo T k na próbie bootstrapowej, powtarzając dla każdego węzła, jeśli jego rozmiar jest większy od m.2.. Wylosuj F n składowych obrazu.2.2. Znajdź składową i i wartość progową θ i przegląd zupełny.2.3. Rozdziel węzeł na dwa węzły potomne 2. Zwróć drzewa {T k } k=, 2,, K Wyznaczenie prognozy dla obrazu : f = K K T k k= Hastie T., Tibshirani R., Friedman J.: The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer 29 3

BADANIA SYMULACYJNE Dane Szereg czasowy obciążeń krajowego systemu elektroenergetycznego w okresie 22-24 Problem prognostyczny Prognoza obciążeń godzinowych w kolejnych dniach stycznia i lipca 24, τ = Zbiór uczący Zbiór uczący zawierał przykłady reprezentujące te same typy dni tygodnia, co przykład testowy Błąd prognozy MAPE = M M j= P P j P j j 4

BADANIA SYMULACYJNE Drzewo regresyjne CART Parametr - m przegląd zupełny, local leave-one-out.6636 <.2544 >=.2544 6 < -.2545 4 < 6 -.2996 >= -.2545 4 >= -.2996.937 2 < -.263239 2 >= -.263239.8759.25742.22665.2227.528 6 < -.26788.8445 <.59799 3 < -.333753.28 7 < -.4694.896.7587.492 24 < -.49864 8 < -.3898 8 >= -.3898 7 < -.965465 7 >= -.965465 6 < -.3554 6 >= -.3554 6 >= -.26788 >=.59799.262 3 >= -.333753 7 >= -.4694 24 >= -.49864 Drzewo regresyjne utworzone w zadaniu prognozy obciążenia dn..7.24 r. o godz. 2, m = 8 N u m e r p ró b k i t e s t o w e j 6 5 4 3 2 6 55 5 45 4 35 3 25 2 5 5 5 5 2 25 Godzina Optymalne wartości m 5

BADANIA SYMULACYJNE Drzewo regresyjne z rozmytymi węzłami Fuzzy CART Parametr - kąt nachylenia funkcji przynależności α przegląd zupełny, local leave-one-out Wariant drzewa Parametry MAPE wal MAPE tst CART m = var,27,42 Fuzzy CART m = m CART, α = var,2,33 Fuzzy CART m = 3, α = var,22,36 Fuzzy CART m =, α = var,22,33 Fuzzy CART m = m CART, α = var,3,3 Fuzzy CART m = 3, α = var,23,42 Częstość.4.3.2. 2 3 4 5 6 7 8 9 α Histogram optymalnych kątów nachylenia funkcji przynależności Fuzzy CART m =, α = var,23,35 Fuzzy CART m = m CART, α,, α m = var,74,37 6

BADANIA SYMULACYJNE Las losowy Parametry - liczba drzew K, liczba składowych F, m przegląd zupełny, out-of-bag 7-3 3.9-3.25-3 5 MSE 6 5 4 F = 8 m = MSE 3.8 3.7 3.6 3.5 3.4 K = m = Frequency.2.5..5 4.5 4 3.5 MSE 3 2 3 4 5 K 3.3 2 4 6 8 2 4 6 8 2 22 24 F 5 5 2 m 3 Dudek G.: Short-Term Load Forecasting using Random Forests. In: Filev D. et al. eds.: Intelligent Systems 24, Advances in Intelligent Systems and Computing 323, pp. 82-828, 25. 7

BADANIA SYMULACYJNE Las losowy Ważność składowych Importance Forecast for: January 5, hour July, hour.5 Importance Forecast for: January 5, hour 2 July, hour 2.4.2 Importance.6.4.2 Forecast for: January 5, hour 24 July, hour 24 2 Variable -.2 2 Variable -.2 2 Variable 8

BADANIA SYMULACYJNE Wyniki Model Styczeń Lipiec Średni MAPE tst IQR MAPE tst IQR MAPE tst IQR Las losowy.42.39.92.98.6.7 CART.7.58.6.7.42.39 Fuzzy CART.62.47.3.2.37.35 ARIMA 2.64 2.34.2.24.9.67 Wygładzanie wykładnicze Sieć neuronowa Prognoza naiwna 2.35.88.9.3.76.56.32.3.97..4.5 6.37 5.36.29.2 3.78 3.82 9

BADANIA SYMULACYJNE Rozkład błędów Number of observations 2 RF 2 CART 2 Fuzzy CART -5 5 PE -5 5-5 5 2 ARIMA 2 ES 2 ANN -5 5-5 5-5 5 2

WNIOSKI Reprezentacja szeregów czasowych za pomocą obrazów cykli sezonowych ułatwia prognozowanie szeregów niestacjonarnych z trendem i wieloma cyklami wahań sezonowych Model prognostyczne oparte na drzewach regresyjnych wyróżnia prosta i zrozumiała budowa oraz niewielka liczba parametrów Rozmyta wersja drzew regresyjnych pozwala sterować równowagą między obciążeniem i wariancją modelu Lasy losowe jako komitet słabych uczniów pozwalają zredukować błąd prognozy i uzyskać stabilniejsze rezultaty 2

Dziękuję za uwagę 22