Techniki eksploracji danych oparte na funkcjach kryterialnych typu CPL jako narzędzie prognozowania notowań giełdowych



Podobne dokumenty
KLASYFIKATOR LINIOWY TYPU CPL UWZGLĘDNIAJĄCY KOSZTY BŁĘDÓW KLASYFIKACJI JAKO NARZĘDZIE PROGNOZOWANIA GIEŁDY

Elementy modelowania matematycznego

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD

ALGORYTM RANDOM FOREST

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Aproksymacja funkcji a regresja symboliczna

Testy popularnych wskaźników - RSI

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Poziom przedmiotu: II stopnia. Liczba godzin/tydzień: 2W E, 2L PRZEWODNIK PO PRZEDMIOCIE

Poradnik Inwestora część 4. Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktach indeksowych

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD

Strategie VIP. Opis produktu. Tworzymy strategie oparte o systemy transakcyjne wyłącznie dla Ciebie. Strategia stworzona wyłącznie dla Ciebie

Agnieszka Nowak Brzezińska Wykład III

Wprowadzenie do analizy korelacji i regresji

Ćwiczenie 12. Metody eksploracji danych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Agnieszka Nowak Brzezińska Wykład III

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

7. Maszyny wektorów podpierajacych SVMs

Rozpoznawanie obrazów

Testowanie modeli predykcyjnych

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Test wskaźnika C/Z (P/E)

Strategia DALI no Bogey

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

System transakcyjny oparty na średnich ruchomych. ś h = gdzie, C cena danego okresu, n liczba okresów uwzględnianych przy kalkulacji.

Wycena opcji. Dr inż. Bożena Mielczarek

Dopasowywanie modelu do danych

Analiza danych. TEMATYKA PRZEDMIOTU

10. Redukcja wymiaru - metoda PCA

Agnieszka Nowak Brzezińska

Klasyfikacja LDA + walidacja

Giełda. Podstawy inwestowania SPIS TREŚCI

Etapy modelowania ekonometrycznego

Analiza składowych głównych. Wprowadzenie

Metody systemowe i decyzyjne w informatyce

Spis treści 3 SPIS TREŚCI

OGŁOSZENIE O ZMIANIE STATUTU UNIOBLIGACJE HIGH YIELD FUNDUSZU INWESTYCYJNEGO ZAMKNIĘTEGO Z DNIA 23 CZERWCA 2016 R.

Systemy uczące się Lab 4

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań

OPCJE MIESIĘCZNE NA INDEKS WIG20


Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

ABONAMENT LISTA FUNKCJI / KONFIGURACJA

Giełda : podstawy inwestowania / Adam Zaremba. wyd. 3. Gliwice, cop Spis treści

3. Modele tendencji czasowej w prognozowaniu

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Strategia inwestycyjna oparta na korelacji w szeregach czasowych

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Instrumenty rynku akcji

TYPY MODELOWYCH STRATEGII INWESTYCYJNYCH

Asset Management w Domu Maklerskim DIF Broker S.A.

DRZEWA REGRESYJNE I LASY LOSOWE JAKO

Interwały.

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Algorytmy klasyfikacji

Inne kryteria tworzenia portfela. Inne kryteria tworzenia portfela. Poziom bezpieczeństwa. Analiza i Zarządzanie Portfelem cz. 3. Dr Katarzyna Kuziak

Zarządzanie ryzykiem. Opracował: Dr inŝ. Tomasz Zieliński

Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD

Ekonometryczne modele nieliniowe

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Regresja i Korelacja

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Prognozowanie na podstawie modelu ekonometrycznego

Elementy inteligencji obliczeniowej

Załącznik do Dokumentu zawierającego kluczowe informacje Ubezpieczeniowe fundusze kapitałowe Ubezpieczenie Inwestycyjne Bonus VIP

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

System transakcyjny oparty na wskaźnikach technicznych

Optymalizacja systemów


Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD

Jakość uczenia i generalizacja

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

WYKORZYSTANIE SZTUCZNYCH SIECI NEURONOWYCH W PROGNOZOWANIU

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Portfel Globalnego Inwestowania

ROC Rate of Charge. gdzie ROC wskaźnik szybkości zmiany w okresie n, x n - cena akcji na n-tej sesji,

Własności estymatorów regresji porządkowej z karą LASSO

Zmienność. Co z niej wynika?

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Sterowanie wielkością zamówienia w Excelu - cz. 3

Zarządzanie Kapitałem. Paweł Śliwa

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Transkrypt:

Techniki eksploracji danych oparte na funkcjach kryterialnych typu CPL jako narzędzie prognozowania notowań giełdowych mgr inż. Jerzy Krawczuk Promotor prof. dr hab. Leon Bobrowski POLITECHNIKA BIAŁOSTOCKA Wydział Informatyki Białystok 2013

Wstęp Przedmiotem niniejszej rozprawy jest wykorzystanie modeli klasyfikacyjnych i regresyjnych opartych na funkcjach kryterialnych typu CPL do prognozy szeregów czasowych notowań giełdowych na przykładzie indeksu giełdy amerykańskiej S&P500. Gdy w prasie bądź telewizji słyszymy o wzrostach bądź spadkach na giełdzie, wiadomości te dotyczącą najczęściej indeksów giełdowych gdyż to właśnie one oddają najlepiej zachowanie całego rynku. Dotyczą one również zmian dziennych, które dla indeksu S&P500 oscylują w okolicach 1% co do wartości bezwzględnej. Zmiany powyżej 3% zdarzają się bardzo rzadko, gdy się jednak pojawiają często słyszymy o euforii inwestorów lub o krachu na giełdzie. Zmiany wartości indeksu w okresie zaledwie jednego dnia, uważane są często za losowe i nieprzewidywalne. Jednak podejmowanych jest wiele prób takiej właśnie prognozy, m.in. za pomocą narzędzi eksploracji danych takich jak sieci neuronowe[15][2]. Tak krótka prognoza Rysunek 1. Dzienne zmiany wartości indeksu S&P500 w okresie od lutego 2010r. października 2012r. do nie jest wykorzystywana przez inwestorów giełdowych, którzy podejmują swoje decyzje w oparciu o długoterminowe oczekiwania co do rozwoju koniunktury gospodarczej i rozwoju poszczególnych gałęzi gospodarki. Może być jednak wykorzystana przez tzw. graczy giełdowych (ang. speculators), którzy przeprowadzają transakcje krótkoterminowe, starając się wykorzystać obecnie panujące nastroje na rynku i obowiązujący trend. Prognoza taka, może również posłużyć do budowy automatycznych systemów transakcyjnych tzw. robotów giełdowych. Systemy takie same podejmują decyzje kupna/sprzedaży bez ingerencji człowieka, same potrafią również wysyłać zlecenia na giełdę. Takie autonomiczne systemy 1

działają zarówno na dużą skalę w specjalnych funduszach inwestycyjnych nazywanych Quant Fund, ale mogą być również budowane przez drobnych inwestorów. Obecnie niektóre biura maklerskie w swoich aplikacjach do składania zleceń udostępniają interfejs programistyczny (API ang. Application Programming Interface), który umożliwia podłączenie do nich własnego oprogramowania. Firma Metastock znana z platformy inwestycyjnej Metatrader, udostępnia również specjalizowany język programowania MQL5. Jako ciekawostkę można wspomnieć iż organizowane są konkursy robotów giełdowych w których nagrody sięgają dziesiątków tysięcy dolarów 1. W tej pracy prognozowano jednodniowe zmiany indeksu S&P500 za pomocą dwóch metod eksploracji danych: modeli klasyfikacyjnych i regresyjnych. Modele klasyfikacyjne posłużyły do prognozy kierunku zmiany indeksu. Prognoza kierunku przewiduje tylko czy nastąpi wzrost czy spadek, nie prognozuje ich wielkości. W przypadku danych giełdowych jest to często prognoza wystarczająca [19]. Modele regresyjne z kolei są bardziej dokładne i starają się przewidzieć nie tylko kierunek ale również wielkość zmiany, np. wzrost indeksu o pół procenta. W dziedzinie eksploracji danych istnieje wiele modeli klasyfikacyjnych i regresyjnych, najpopularniejsze i najczęściej stosowane zostały użyte w tej pracy jak np. maszyna wektorów wspierających [13][36][19]. W zestawieniu z nimi zaproponowano nowe modele zarówno klasyfikacyjne jak i regresyjne, oparte o minimalizację wypukłej i odcinkowo liniowej funkcji kryterialnej [5][7][26] (CPL ang. Convex and Piecewise Linear). Modele te charakteryzują się stosunkowo małą złożonością obliczeniową oraz w przypadku klasyfikacji łatwością wprowadzenia do procesu uczenia informacji o zakresie zmiany indeksu. Koncepcje badawcze i teza rozprawy Prognozowanie indeksów giełdowych metodami eksploracji danych zyskuje na popularności, gdyż nie istnieją precyzyjne metody ekonometryczne mogące opisać zachowanie zmian notowań. Od kilku stuleci rozwijana jest analiza techniczna oparta w głównej mierze na analizie wykresów i pojawiających się na nich powtarzających się formacjach [32]. Od lat kilkudziesięciu stosuje się ekonometryczne szeregi czasowe [16] takie jak ARIMA [9], 1 W ramach promocji MQL5 w 2012 roku firma Metatrader już po raz szósty zorganizowała Automated Trading Championship 2012", gdzie główna nagroda wynosiła 80tys USD. Więcej informacji można odnaleźć pod adresem http://championship.mql5.com/2012/en 2

ARCH [14], GARCH [8]. Od lat kilkunastu szerzej stosowane są metody eksploracji danych [34]. Każde z tych podejść prognozuje wartość indeksu w przyszłości na podstawie jego obecnej wartości i zachowania indeksu w ostatnim okresie. W przypadku metod eksploracji danych oprócz historii indeksu prognozowanego można wprowadzić wartości innych szeregów czasowych takich jak inne indeksy, kursy walut, ceny najważniejszych surowców, notowania metali szlachetnych itd. Taki wzrost ilości atrybutów opisujących stan giełdy może przyczynić się do poprawy jakości prognozy, jednak powoduje wzrost obliczeń, co skłania do zwrócenia uwagi na złożoność obliczeniową algorytmów. Dodatkowo przy dużej ilości atrybutów mogą zostać użyte metody selekcji cech, redukujące ich ilość przy zachowaniu a nawet polepszeniu własności prognostycznych budowanych modeli. Teza rozprawy: Metody eksploracji danych oparte na funkcjach kryterialnych typu CPL moga być skutecznym narzędziem prognozowania notowań giełdowych. Szczegółowe cele pracy to: analiza wybranych, dotychczas stosowanych, obliczeniowych metod prognozowania notowań giełdowych, przystosowanie metod eksploracji danych do specyfiki problemu prognozowania notowań giełdowych, opracowanie założeń i przeprowadzenie badań symulacyjnych służących ocenie użyteczności metod klasyfikacji i prognozowania typu CPL przy użyciu wybranej strategii inwestowania na giełdzie, oszacowanie skuteczności prognozowania notowań giełdowych w oparciu o metody klasyfikacji i prognozowania typu CPL na bazie badań eksperymentalnych i symulacyjnych. Treść rozprawy Treść rozprawy składa się z 9 rozdziałów, rozdział pierwszy zawierał ogólne przedstawienie zagadnienia oraz sformułowanie tezy pracy. W rozdziale drugim zamieszczono wprowadzenie do giełd papierów wartościowych. Krótko przedstawiono historię giełdy i giełdy współczesne z uwzględnieniem największych giełd na świecie. Osobny rozdział poświęcono Giełdzie 3

Papierów Wartościowych w Warszawie i na jej przykładzie opisano przebieg sesji giełdowej. W rozdziale trzecim opisano standardowe techniki prognozy notowań tj. analizę fundamentalną, analizę techniczną, ekonometryczne szeregi czasowe oraz metody eksploracji danych. Szerzej przedstawiono analizę techniczną, która posłużyła w tej pracy do obliczeń współczynników opisujących stan giełdy, np. panujący trend. W rozdziale czwartym dokładnie opisano wykorzystane w pracy dane, wraz z ich przekształceniami. Dokonano też analizy statystycznej zmiennej prognozowanej. Rozdział piąty i szósty przedstawia dwie bardzo popularne techniki eksploracji danych, odpowiednio klasyfikację i regresję. W obu rozdziałach opisano najpopularniejsze stosowane obecnie modele, oraz modele liniowe oparte o wypukłe i odcinkowo liniowe funkcje kryterialne CPL. Wszystkie opisane w tych rozdziałach modele posłużyły do eksperymentu, którego wyniki omówiono w rozdziale siódmym. Rozdział ósmy poświęcono krótkiemu opisowi zaimplementowanego systemu do analizy i prognozy notowań giełdowych. Rozdział dziewiąty zawiera wnioski końcowe i podsumowanie pracy. Klasyfikator CPL Klasyfikator typu CPL jest klasyfikatorem liniowym, który separuje dwa zbiory danych za pomocą hiperpłapszczyzny. Poszukiwanie hiperpłaszczyzny separującej zbiory danych z dwóch klas jest problemem od dawna pojawiającym się w eksploracji danych czy też sztucznej inteligencji. Prace te zapoczątkował Frank Rosenblatt [38], którego uważa się za twórcę idei Perceptronu oraz sztucznej sieci neuronowej. Idea Perceptronu bazuje na neuronie formalnym, który rozwiązuje problem klasyfikacji binarnej za pomocą funkcji liniowej: 1 jeżeli w T x + θ > 0 Y = 0 w przeciwnym wypadku gdzie x jest n wymiarowym wektorem cech opisującym klasyfikowany obiekt, w oraz θ są parametrami hiperpłaszczyzny. Klasyfikator liniowy typu CPL oparty jest na minimalizacji wypukłej i odcinkowo liniowej funkcji kryterialnej [5] postaci: (1) 4

Rysunek 2. Perceptron. Φ(w, θ) = n N [y i cost 1 (x i ) + (1 y i )cost 0 (x i )] + λ γ i w i (2) i=1 i=1 cost 1 (x) = max(0; +1 w T x + θ) cost 0 (x) = max(0; 1 + w T x θ) (3) Przy czym y i {0, 1}, gdzie λ (λ 0) jest ogólnym współczynnikiem kosztów cech (parametrem regularyzacyjnym), zaś γ i (γ i 0) są współczynnikami kosztów poszczególnych cech x i. Jest to funkcja wypukła i odcinkowo liniowa (ang. convex and piecewise-linear), której minimum może być odnalezione poprzez wydajny algorytm wymiany rozwiązań bazowych. Funkcja cost 1 związana jest z błędną klasyfikacją obiektu należącego do klasy y = 1. Wartość tej funkcji wynosi 0 gdy obiekt x znajduje się po dobrej stronie hiperpłaszczyzny (w pewnej minimalnej od niej odległości), wartość większą od 0 gdy obiekt leży zbyt blisko hiperpłaszczyzny bądź po jej złej stronie. Funkcja cost 0 analogicznie określa koszt związany z obiektami klasy y = 0. Funkcja kryterialna 2 może zostać rozszerzona o wagę związaną z każdym z obiektów w następujący sposób: Φ(w, θ) = n N α i [y i cost 1 (x i ) + (1 y i )cost 0 (x i )] + λ γ i w i (4) i=1 i=1 gdzie nieujemne parametry α j reprezentują koszty związane z obiektami x i. Rozszerzenie to zostało wykorzystane w niniejszej pracy do przypisania kosztów błędnej klasyfikacji jednodniowych wzrostów i spadków indeksu S&P500 równych wartości bezwzględnej zmian tego indeksu. Zabieg ten umożliwił budowę klasyfikatora CPL, który nie tylko optymalizował 5

ilość prawidłowo sklasyfikowanych dni wzrostowych i spadkowych ale również budowę klasyfikatora uwzględniającego wielkości wzrostów i spadków, co wydaje się kluczowe przy inwestowaniu na giełdzie. Porównanie klasyfikatora CPL z metoda SVM i modelem logistycznym Każde z tych trzech podejść poszukuje pewnej hiperpłaszczyzny o parametrach θ i w poprzez minimalizację podobnych funkcji. Generalnie wszystkie trzy funkcje mają dwa zasadnicze człony. Pierwszy związany z karami dla każdego obiektu, tutaj zostały one zapisane w postaci dwóch funkcji cost 0 oraz cost 1, drugi natomiast z wartościami wektora rozwiązań w tzw. członu regularyzacyjnego Φ 0 (w). n min(w, θ) { [y i cost 1 (x i ) + (1 y i ) cost 0 (x i )] + Φ 0 (w) } (5) i=1 Gdzie y i {0, 1}. W przypadku SVM i CPL koszty związane z obiektami są identyczne i wyglądają następująco: SV M,CP L cost SV M,CP L 1 (x i ) = max(0; θ + 1 w T x i ) cost0 (x i ) = max(0; θ 1 + w T x i ) Inaczej wyglądają natomiast w przypadku modelu logistycznego (ML): cost ML 1 1 (x i ) = log 1 + e (wt x i +θ) (6) cost ML 1 0 (x i ) = log(1 1 + e ) (wt x i +θ) W przypadku regularyzacji jest ona identyczna dla modelu logistycznego ML i maszyny wektorów wspierających SVM (norma l 2 ) natomiast inna dla modelu CPL (norma l 1 ). (7) Φ ML,SV M 0 (w) = λ 2 Φ CP L 0 (w) = λ N wj 2 (8) j=1 N w j (9) Rozpatrywany w tym rozdziale model SVM dotyczy jedynie przypadku, gdy funkcja jądrowa jest liniowa. rozwiązań mogą być znaczne. j=1 Pomimo podobieństw wszystkich 3 modeli, różnice otrzymywanych 6

Relaksacja liniowej separowalności Wiele modeli klasyfikacyjnych takich jak te porównane w tej pracy (CPL, SVM, ML) zależą od parametru regularyzacyjnego, który decyduje o tym czy model będzie bardziej dopasowany do danych treningowych czy będzie miał większe właściwości generalizacyjne. Zagadnienie doboru parametrów w taki sposób aby model jak najlepiej zachowywał się na nowych nie widzianych danych jest zagadnieniem kluczowym w budowie modeli prognostycznych. Jest to podstawowy problem, z którym spotyka się każdy badacz. Czy maksymalnie zminimalizować błąd na zbiorze uczącym czy zbudować prosty model, który być może będzie miał lepsze właściwości uogólniające i lepiej zachowa się na nowych danych (ang. bias-variance tradeoff ). W przypadku maszyny wektorów wspierających SVM, modelu logistycznego oraz klasyfikatora liniowego CPL możemy o tym decydować poprzez parametr regularyzacyjny. Czym większa wartość parametru λ we wzorze (5), tym większe znaczenie w minimalizowanej funkcji będą miały wartości parametrów modelu w i,.., w N. W procesie minimalizacji wartości tej funkcji, niektóre z nich mogą ulec wyzerowaniu. Sterując wartością parametru λ możemy sterować złożonością modelu. Zwykle dobór tego parametru następuje poprzez sprawdzenie kilku, kilkunastu jego wartości na skali logarytmicznej, np. w pracy [34] dla klasyfikatora SVM sprawdzane są następujące wartości C = 2 5, 2 4,..., 2 5. W przypadku klasyfikatora opartego na funkcjach typu CPL dobór wartości parametru regularyzacyjnego może zostać przeprowadzony w taki sposób, aby kolejno zerować wartości współczynników modelu w i gdzie i = 1..N. Idea takiego rozwiązania została zaproponowana po raz pierwszy przez Bobrowskiego [3] i rozwijana w kolejnych latach [6] owocując implenentacją zrównolegloną w języku C, użytą do obliczeń w niniejszej rozprawie. Metoda ta znana pod nazwą relaksacji liniowej separowalności RLS (ang. relaxed linear separability) jest metodą selekcji cech. Generuje ona podprzestrzenie o coraz mniejszych wymiarach kończąc na przestrzeni jednowymiarowej, eliminując kolejno cechy poprzez odpowiednie zwiększanie wartości parametru λ. Podobna metoda selekcji cech dla modeli regresyjnych znana jest pod nazwą LASSO [40] [41]. Metoda ta została wykorzystana do obliczeń w tej pracy w następujący sposób. Został wygenerowany ciąg podprzestrzeni zgodnie z metodą RLS, każda z nich została oceniona za pomocą trafności klasyfikacji acc obliczonej metodą leave-one-out. Dla najlepszej podprzestrzeni został zbudowany klasyfikator CPL z parametrem λ = 0, 0005/n, gdzie n liczność zbioru. 7

Regresja przedziałowa z wykorzystaniem funkcji typu CPL Wykorzystanie funkcji typu CPL w problemie regresji przedziałowej zostało zaproponowane w pracy [7]. W podejściu tym, liniowy model regresyjny poszukiwany jest poprzez sprowadzenie problemu regresji do problemu liniowej separowalności. Główne różnice z klasycznym modelem regresji liniowej są następujące: funkcja kryterialna oparta jest o błąd bezwzględny, nie kwadratowy wartośći y i nie są znane dokładnie, znane są przedziały do których należą [l i, u i ] regularyzacja oparta jest o normę l 1, nie o normę l 2 Funkcja kryterialna typu CPL w problemie regresji przedziałowej może zostać zapisana następująco: Q 1 (v) = 1 n n [ cost 1 (z i, l i ) + i=1 n N cost 0 (z i, u i )] + λ v i (10) i=1 i=1 l i v T z i jeżeli v T z i < l i cost 1 (z i, l i ) = 0 w przeciwnym wypadku v T z i y i jeżeli v T z i > u i cost 0 (z i, u i ) = 0 w przeciwnym wypadku (11) (12) gdzie v = [v 0, v 1,..., v N ] jest wektorem parametrów modelu, natomiast z i = [1, x i,1,..., x i,n ] poszerzonym wektorem zmiennych objaśniających. Jest to analogiczna postać funkcji kryterialnej typu CPL jaka występuje w problemie klasyfikacji. Przy czym dla jednego obiektu w problemie regresji klasycznej (x i, y i ) należy utworzyć dwa obiekty (1, x i, l i, 0) i (1, x i, u i, 1) w problemie klasyfikacji. Eksperyment Celem przeprowadzonych w tej pracy eksperymentów jest pokazanie użyteczności technik eksploracji danych opartych na funkcjach kryterialnych typu CPL w prognozowaniu notowań giełdowych. Wykorzystane techniki to klasyfikator liniowy, regresja przedziałowa, oraz selekcja cech bazująca na relaksacji liniowej separowalności RLS. Wyniki tych metod zostały porównane z innymi popularnie stosowanymi klasyfikatorami np. maszyną wektorów wspierających SVM, modelami regresyjnymi np. regresją liniową. 8

Bardzo ważnym aspektem eksperymentów jest sposób pomiaru jakości modeli. Większość autorów stosuje podział na zbiór treningowy (często nazywany z ang. in-sample) oraz testowy (ang. out-of-sample). W przypadku notowań giełdowych zbiór testowy jest następujący w czasie po zbiorze treningowym. Ważne są również stosowane miary jakości, które można podzielić na dwie grupy: miary klasyczne stosowane w eksploracji danych, oraz miary finansowe np. miara zysku. Miary finansowe można obliczyć, gdy przyjmie się pewną strategię inwestycyjną opartą na wskazaniach zbudowanych modeli. Strategia taka opisuje jak zastosować prognozę modelu w praktyce, czyli kiedy kupić bądź sprzedaż określoną ilości instrumentu notowanego na giełdzie. Strategii takich może być wiele, ta użyta w tej pracy zakłada możliwość zarabiania na spadkach indeksu. Prognozowanie notowań giełdowych jest zadaniem trudnym, gdyż zachowują się one chaotycznie, zależą od bardzo wielu czynników, w tym zdarzeń losowych, jednak pokazano iż notowania te nie są błądzeniem losowym (ang. random walk) [29]. Pierwsze próby prognozy giełdy za pomocą metod uczenia maszynowego, to prognozy dokładnej wartości notowania w przyszłości za pomocą sieci neuronowych [20] [15]. Jakość takich modeli mierzona była najczęściej za pomocą błędu średniokwadratowego bądź średniego błędu bezwzględnego jak również współczynnika determinacji R 2. W tej pracy wartość dokładna jednodniowej zmiany indeksu S&P500 prognozowana jest za pomocą modeli regresyjnych. W ostatnim dziesięcioleciu można zauważyć tendencję do prognozowania jedynie kierunku zmiany wartości indeksu, a nie jego dokładnej wartości. Z punktu widzenia inwestora prognoza taka jest często wystarczająca, gdyż decyduje o możliwości osiągnięcia zysku i uniknięcia straty. Jedne z pierwszych prac w tym zakresie pochodzą z roku 1997 [44][33], jednak ich autorzy nie używali modeli klasyfikacyjnych. Pierwsze próby zastosowania techniki klasyfikacji dla notowań giełdowych odnajdziemy w pracy [28] (analiza dyskryminacyjna Fishera, model logistyczny, probabilistyczna sieć neuronowa). Autor uzyskał wyniki rzędu 48-63% trafności klasyfikacji acc prognozując miesięczne zmiany indeksu S&P500 na 60 elementowym zbiorze testowym. Podobne techniki klasyfikacyjne wykorzystał Chen [12] dla indeksu giełdy w Tajwanie. W pracy tej odnajdziemy również wykorzystanie miary zysku finansowego, który liczony był na bazie innej strategii inwestycyjnej niż ta proponowana w tej rozprawie. Strategia nie zakładała krótkiej sprzedaży i polegała na inwestycji w indeks, gdy przewidywany był jego wzrost, oraz wycofanie się z rynku i inwestycje w bezpieczne obligacje skarbowe gdy przewidywany był jego spadek. Miara osiąganego zysku finansowego 9

oscylowała w granicach 7-10% w skali roku. Nowością w tej pracy było również zastosowanie nie tylko podziału zbioru na treningowy i testowy, ale również testu kroczenia do przodu. Jest to technika bardzo popularna wśród osób badających automatyczne strategie inwestycyjne [35]. Została ona również opisana i użyta w tej rozprawie. W kolejnej pracy Kim [19] zastosował po raz pierwszy maszynę wektorów wspierających SVM do predykcji kierunku zmiany indeksu giełdy Japońskiej NIKKEI 225. Prognozował on jednodniową zmianę wartości tego indeksu, dobierając parametry modelu na 1637 elementowym zbiorze treningowym i testując otrzymany klasyfikator na 581 zbiorze testowym. Jakość modeli mierzona była trafnością klasyfikacji acc, która na zbiorze testowym zawierała się w przedziale 50-57%. Niemal połowa stosowanych w tej rozprawie wskaźników analizy technicznej pokrywa się z tymi użytymi w pracy Kim. W niniejszej pracy uzyskano podobne wyniki na poziomie 50-57% trafności klasyfikacji, oraz miary zysku finansowego 10-30% w skali roku. Dane źródłowe Dane źródłowe wykorzystane w rozprawie do przeprowadzenia eksperymentów obliczeniowych to notowania dzienne 9 instrumentów finansowych notowanych na giełdach amerykańskich z okresu od 2006-07-03 do 2012-10-24 (1648 dni notowań). Notowania dzienne obejmują cenę otwarcia, cenę największą i najmniejszą oraz cenę zamknięcia (OHLC z ang. Open High Low Close). Osiem spośród dziewięciu instrumentów to tzw. ETF 2 (ang. Exchange-Traded Fund) są to specjalne fundusze inwestycyjne, których zadaniem jest wierne odzwierciedlenie wskazanego indeksu. Przykładowo ETF o symbolu SPY odzwierciedla dokładnie zachowanie indeksu S&P500. Ideą ETF jest to, aby zarządzanie funduszem mogło odbywać się algorytmicznie, przez co koszt zarządzania takim funduszem jest minimalny. Nie wymagana jest wiedza ekspercka, śledzenie wyników spółek i analiza makroekonomiczna, wystarczy w sposób automatyczny utrzymywać portfel analogiczny do składu indeksu. Szczegóły użytych instrumentów przedstawia tabela. Oprócz ETF-ów znalazł się również jeden indeks zmienności oznaczony symbol VIX. Jego wartości odpowiadają oczekiwanej zmienności indeksu S&P500. 2 Wprowadzone po raz pierwszy w USA w 1993 roku, w europie istnieją od 1999 roku, w Polsce pierwszy ETF pojawił się dopiero w 2010 roku. 10

Symbol SPY EWG FXI GLD SLV USO FXE FXB VIX Nazwa indeks S&P500 rynku amerykańskiego index DAX rynku niemieckiego rynek chiński złoto srebro ropa naftowa kurs dolara do euro kurs dolara do funta brytyjskiego indeks zmienności rynku amerykańskiego Tablica 1. Użyte w pracy instrumenty finansowe. Oprócz VIX wszystkie są ETF-ami reprezentującymi kilka największych rynków akcji, metali szlachetnych, surowców i walut. Indeks VIX reprezentuje zmienność indeksu S&P500 Ceny tych instrumentów nie były używane bezpośrednio do konstrukcji modeli, poddane one zostały przekształceniom przedstawionym w tabeli 2. Na ich podstawie dla każdego dnia, utworzono N = 27 wymiarowy wektor cech x = [x 1,..., x N ]. Ilość wektorów cech (ilość dni) to n = 1500, notowanie każdego dnia oznaczmy jako x i, gdzie i = 1...n. Liczność zbioru uczącego n = 1500, jest niższa od ilości dostępnych notowań wynoszących 1648. Wynika to z faktu, iż pierwszy wektor w zbiorze uczącym został wyliczony dla 2007-01-24, wcześniejsze 147 dni posłużyły do wyliczenia wartości wskaźników analizy technicznej. Zachowano tak długi okres, aby średnie wykładnicze można było obliczyć z wystarczającą dokładnością. Dane uczące kończą się również jeden dzień przed końcem danych z notowaniami, tak aby dla ostatniego wektora z dnia 2012-10-23 można było wyznaczyć wartość prognozowaną. Miara zysku finansowego Ze względu na giełdowe pochodzenie prognozowanych w tej pracy danych, wprowadzono dodatkową miarę jakości modelu opartą o aspekt finansowy. Miary jakości takie jak trafność prognozy wywodzą się z eksploracji danych. Natomiast z punktu widzenia inwestora potencjalnie używającego jednego z prezentowanych modeli istotne jest to, czy możliwe jest osiągnięcie zysku. Aby przybliżyć praktyczną użyteczność modeli wprowadzono miarę 11

Numer Symbol Nazwa zmiennej Opis zmiennej 1-7 SPY ROC(1, close, close) procentowa zmiana od ostatniego zamknięcia, jest to wartość prognozowana. Siedem historycznych wartości prognozowanych branych jest jako dane wejściowe, sprzed 1,2,5,8,9,17 i 18 dni. 8 SPY ROC(1, close, close) 2 kwadrat ostatniej zmiany 9 SPY ROC(2, close, close) procentowa zmiana od przedostatniego zamknięcia, zmiana dwudniowa 10 SPY ROC(0, close, open) procentowa zmiana od otwarcia 11 SPY ROC(1, open, open) procentowa zmiana dzisiejszego otwarcia w porównaniu do wczorajszego otwarcia 12 SPY ROC(1, open, close) procentowa zmiana dzisiejszego otwarcia w porównaniu do wczorajszego zamknięcia (tzw. luka otwarcia) 13 SPY Disparity(5) procentowa różnica ceny zamknięcia i jej 5 dniowej średniej 14 SPY Disparity(10) procentowa różnica ceny zamknięcia i jej 10 dniowej średniej 15 SPY M ACD(12, 26) różnica średnich wykładniczych z 12 i 26 dni 16 SPY %K(14) wartość oscylatora %K z okresu 14 dni 17 SPY %R(10) wartość oscylatora %R z okresu 10 dni 18 SPY RSI(14) wartość oscylatora RSI z okresu 14 dni 19 SPY AT R(14) wartość wskaźnika zmienności AT R z okresu 14 dni 20 VIX close wartość zamknięcia indeksu zmienności VIX 21-27 Inne M ACD(12, 26) różnica średnich wykładniczych z 12 i 26 dni Tablica 2. Wybrane 27 cech opisujących stan giełdy każdego dnia. Inne symbole to: EWG FXI GLD SLV USO FXE FXB 12

prognoza prognoza pozycja klasyfikatora modelu regresyjnego pozycja i = 1 długa y i = 1 wzrost ŷ i 0 pozycja i = 1 krótka y i = 0 spadek ŷ i < 0 Tablica 3. Definicja strategii inwestycyjnej dla modeli klasyfikacyjnych i regresyjnych. Pozycja długa zajmowana jest gdy klasyfikator prognozuje klasę wzrostu a model regresyjny dodatnią zmianę indeksu. Pozycja krótka w przeciwnych przypadkach. Źródło: opracowanie własne. zysku/straty (ang. profit and loss [17]) zdefiniowaną następująco: zysk/strata = n y i p i (13) i=1 gdzie y i oznacza zmianę dzienną prognozowanego indeksu S&P500, natomiast p i { 1, 1} oznacza zajmowaną pozycję. Pozycja może być długa p i = 1 (ang. long), gdy inwestor zakupił indeks i liczy na jego wzrost, ale może być również krótka p i = 1 (ang. short) gdy dokonał tzw. krótkiej sprzedaży i liczy na jego spadek. Krótka sprzedaż umożliwia zarabianie na spadkach (ale też tracenie na wzrostach). Definicja strategii inwestycyjnej: Strategia dla klasyfikatora: zajmij pozycję długą na zamknięciu giełdy w dniu i gdy y i = 1, natomiast krótką gdy y i = 0. Mówiąc inaczej dokonaj zakupu indeksu gdy klasyfikator prognozuje klasę wzrostu i dokonaj krótkiej sprzedaży gdy prognozuje jego spadek. Strategia dla modelu regresyjnego : w dniu i zajmij pozycję długą gdy prognoza ŷ i 0 oraz krótką gdy ŷ i < 0. Zestawienie reguł decyzyjnych dla obu modeli zawiera tabela 3. Miara zysku/straty nie uwzględnia wielkości zbioru na którym jest obliczana, inaczej mówiąc okresu dla którego osiągnięto taki zysk bądź stratę. Inwestor inaczej zinterpretuje wynik +5.0% w okresie 20 dni a inaczej w okresie 200 dni, oczywiście ten pierwszy wynik jest znacznie lepszy. Dlatego też miara zysku/straty została ustandaryzowana do okresu rocznego 13

(252 dni roboczych): zysk/strata rok = n zysk/strata (14) 252 Miara ryzyka finansowego Zawsze przy okazji omawiania inwestowania, oprócz zysku pojawia się pojęcie ryzyka. O ile w przypadku obliczania zysku z symulacji pewnej strategii inwestycyjnej, sprawa jest dosyć oczywista to w przypadku ryzyka już tak nie jest. Ryzyko finansowe jest pojęciem trudniejszym do uchwycenia i zmierzenia. Jedną z pierwszych miar ryzyka stosowaną np. przez Markovitza w teorii portfela była wariancja stopy zwrotu [31]. Czym bardziej zmieniają się ceny instrumentów, czy też wartość całego portfela, tym bardziej ryzykowna jest inwestycja. Ten rodzaj ryzyka można zaszeregować jako ryzyko wystąpienia sytuacji innej niż spodziewana (czyli oczekiwana stopa zwrotu). Obejmuje ono zarówno możliwość wystąpienia sytuacji gorszej (przykra niespodzianka), ale również lepszej (przyjemne zaskoczenie). Inną miarą ryzyka, która skupia się jedynie na jego negatywnej stronie jest maksymalne obsunięcie kapitału [30] (ang. maximum drawndown mdd). Miara ta reprezentuje największą procentową stratę w badanym okresie. Odpowiada to najgorszemu z możliwych scenariuszy, w którym inwestor kupuje na szczycie i sprzedaje w dołku. Jednak należy zauważyć, że nie jest to równoznaczne z kupnem w historycznym maksimum i sprzedaży w minimum, ponieważ wielkość ta mierzona jest procentowo. Ta właśnie miara została użyta w tej rozprawie do zobrazowania ryzyka z inwestycji. Istnieją również połączone miary zysku oraz ryzyka. Jedna z najczęściej stosowanych jest Sharp ratio [39], które liczone jest jako stosunek zysku do ryzyka mierzonego odchyleniem standardowym. Podobną miarą jest kryterium Calmara [45], liczone również jako stosunek zysku do ryzyka, jednak ryzyka mierzonego maksymalnym obsunięciem kapitału. Zastosowanie tej miary odnajdziemy m.in. w pracy [43] wykorzystującej regresję do konstrukcji strategii inwestycyjnych dla indeksu polskiej giełdy WIG20. Klasyfikatory optymalizujace zysk finansowy Domyślnie klasyfikatory budowane są tak, aby maksymalizowały ilość prawidłowo sklasyfikowanych obiektów, nie przypisując poszczególnym obiektom różnych wag. Okazuje się jednak, iż wiele klasyfikatorów można budować w taki sposób aby uwzględniały one 14

indywidualne koszty błędnej klasyfikacji dla każdego obiektu z osobna. W przypadku klasyfikatora CPL jest to możliwe poprzez podanie odpowiednich wartości parametrów α i we wzorze (4) [24]. Wiele innych klasyfikatorów również posiada taką możliwość. Wszystkie sześć klasyfikatorów z pakietu do analizy danych Weka użyte w tej pracy również posiada taką możliwość (implementują interfejs WeightedInstancesHandler). Przykładowo klasyfikator większościowy ZeroR będzie klasyfikował obiekty nie do klasy najbardziej licznej, a do klasy w której suma kosztów wszystkich jej obiektów będzie największa. Jest to sytuacja, która dokładnie odpowiada tej przy prognozowaniu wzrostów i spadków na giełdzie. Bardziej zależy nam na prawidłowej klasyfikacji (prognozie) wzrostu o 2% niż o 0,1%. Podobnie w przypadku spadków. Jednak zarówno wzrost o 2% jak i spadek o 2% są równoważne, jeżeli przyjmiemy możliwość dokonywania krótkiej sprzedaży. Dlatego też, z każdym z obiektów możemy zwiazać wagę równa wartości bezwzględnej prognozowanej zmiany procentowej. Będziemy chcieli budować takie klasyfikatory, które będą prawidłowo klasyfikować większe zmiany indeksu S&P500 (zarówno wzrosty jak i spadki). Dzięki takiemu zdefiniowaniu kosztów na poziomie obiektów, klasyfikatory będą budowane tak, aby maksymalizowały zdefiniowany wcześniej (13) zysk finansowy. Jest to ciekawa właściwość klasyfikatorów, która nie została jeszcze spopularyzowana dla prognozy notowań giełdowych. Statystyczna istotność wyników Niewątpliwie najważniejsze z punktu widzenia badanych w tej pracy zastosowań technik eksploracji danych jest osiągnięcie zysku finansowego. Zarówno klasyfikacja jak i regresja zostały zastosowane do podjęcia decyzji o zajęciu odpowiedniej pozycji na giełdzie, czyli została zdefiniowana tzw. strategia inwestycyjna. Postawimy zatem hipotezę zerową H0, iż strategia działająca w oparciu o badane modele jest losowa, czyli zajmuje pozycję długa bądź krótka każdego dnia w sposób losowy (z prawdopodobieństwem 50%). Hipoteza alternatywna H1: użyty model daje wyniki lepsze niż strategia losowa. W celu weryfikacji tak postawionej hipotezy wykonano milion symulacji z użyciem strategii losowej [22]. Otrzymano dzięki temu milion różnych wyników miar jakości. Histogram dla miary z/s rok przedstawiono na rysunku 3. Z histogramu możemy odczytać wartości krytyczne testu dla różnych poziomów istotności. Jeżeli model osiągnął zysk większy niż wartość krytyczna, wówczas odrzucamy hipotezę zerową iż jest to strategia losowa. Oznaczmy przez c wartość krytyczną, wówczas: 15

H0: Jakość modelu nie jest znacząco lepsza od strategii losowej. miara(model) c H1: Jakość modelu jest znacząco lepsza od strategii losowej. miara(model) > c Zestawienie trzech najbardziej popularnych poziomów istotności i odpowiadających im wartości krytycznych poszczególnych miar jakości zawiera tabela 4. W przypadku miary ryzyka finansowego mdd im jest ono mniejsze tym lepiej, czyli odrzucimy H0 gdy mdd < c (znak odwrotny niż dla pozostałych miar). Poziom istotności acc bacc z/s rok mdd 90% 52,80 52,88 16,35 15,69 95% 53,60 53,69 20,90 13,71 99% 55,20 55,22 29,49 10,95 średnia 50,00 50,00-0,02 29,82 mediana 50,00 50,00-0,03 27,16 Tablica 4. Wartości krytyczne różnych miar jakości modeli dla trzech wybranych poziomów istotności otrzymane z miliona symulacji strategii losowej na zbiorze testowym. Źródło: opracowanie własne. Rysunek 3. Histogram miary zysku finansowego z/s rok strategii losowej wykonanych na zbiorze testowym. otrzymany dla miliona symulacji Wybrane wyniki eksperymentów W jednym z przeprowadzonych eksperymentów zbiór danych został podzielony na zbiór treningowy złożony z pierwszych 1000 obserwacji oraz zbiór testowy z 500 obserwacji 16

ilość zmiana ilość okres obiektów indeksu S&P500 dni wzrostowych treningowy 1000-15,41% 54,30% testowy 500 +17,85% 55,60% Tablica 5. Podstawowe statystyki okresu treningowego i testowego. własne. Źródło: opracowanie następujących po nich. (tabela 5). Parametry klasyfikatora zostały dobrane na zbiorze treningowym w taki sposób aby maksymalizowały wybraną miarę jakości modelu. W tej pracy maksymalizowane są dwie miary jakości: trafność klasyfikacji acc oraz zysk finansowy z/s rok. Natomiast pomiar dokonywany jest walidacją krzyżową z podziałem na 10 zbiorów. Przy czym podział ten nie jest losowy, a co dziesiąty element trafia do każdego podzbioru. Dzięki temu w każdym z nich znajdują się obiekty z różnych okresów. Miary jakości wyliczane były jedynie na zbiorze złożonym z 500 ostatnich obiektów, czyli 500 dni notowań od 2010-11-24 do 2012-10-23. Podstawowe statystyki dla tego okresu zawiera tabela 5. Przyjęte skróty w oznaczeniach modeli klasyfikacyjnych i regresyjnych zawiera tabela 10 natomiast skróty stosowanych miar jakości tabela 9. Rysunek 4. Podział danych na okres treningowy i testowy. W okresie treningowym do estymacji jakości modeli zastosowano walidację krzyżową z podziałem na 10 zbiorów, przy czym każdy z nich zawierał co 10 obserwację. Źródło danych: finance.yahoo.com. 17

Trening Parametr Test Klasyfikator acc optymalny acc long sens spec bacc z/s rok mdd ZeroR 54,30-55,60 100,0 100,0 0,00 50,00 9,66 20,02 knn 54,80 K=53 55,20 82,40 83,91 19,37 51,59 31,81 7,96 C4.5 53,40 C=0.01-0.49 52,60 85,40 84,17 13,06 48,62 9,71 20,66 NaiveBayes 54,10 rozkł. norm. 52,40 85,20 83,81 13,06 48,44-2,96 34,80 Logistic 55,40 R=2 7 56,40 84,00 86,33 18,92 52,62 24,07 12,02 SVM 57,80 C=2 6 G=2 1 48,80 56,00 54,32 41,89 48,10 11,99 14,46 CPL 55,00 λ = 2 13 52,40 54,50 56,12 47,75 51,93 15,64 16,71 CPL-RLS 56,80-52,60 57,80 59,35 44,14 51,75 27,15 13,47 Tablica 6. Wyniki optymalizacji klasyfikatorów z podziałem na zbiór treningowy i testowy 1000/500. Przetestowano różne wartości parametrów klasyfikatorów, np. ilość sąsiadów klasyfikatora knn i wybrano ten z najwyższą miarą acc na zbiorze treningowym zmierzony metodą walidacji krzyżowej z podziałem na 10 zbiorów. Źródło: opracowanie własne Trening Parametr Test Klasyfikator z/s rok optymalny z/s rok mdd acc long sens spec bacc ZeroR -24,82 - -9,66 30,50 44,40 0,0 0,00 100,0 50,0 knn 19,61 K=24 29,11 12,95 54,20 58,60 61,51 45,05 53,28 C4.5-24,82 C=0.01-0.49-9,66 30,50 44,40 0,00 0,00 100,0 50,00 NaiveBayes -6,06 met. jądr. 9,66 20,02 55,60 100,0 100,0 0,00 50,00 Logistic 30,24 R=2 8 20,81 23,93 49,40 42,60 42,81 57,66 50,23 SVM 48,12 C=2 11 G=2 1 13,30 14,68 50,60 48,60 49,28 52,25 50,77 CPL 32,88 λ = 2 13 13,31 17,17 47,60 39,20 38,13 59,46 48,79 CPL-RLS 48,20-10,85 16,29 48,20 31,80 32,01 68,47 50,24 Tablica 7. Wyniki optymalizacji klasyfikatorów z podziałem na zbiór treningowy i testowy 1000/500. Optymalizowana była miara zysku finansowego z/s rok. Źródło: opracowanie własne Wnioski końcowe W pracy tej zaproponowano wykorzystanie technik eksploracji danych opartych na funkcjach kryterialnych typu CPL do prognozy finansowych szeregów czasowych na 18

Model regresyjny err err 2 R 2 sdratio z/s rok mdd acc long ZeroR 0,76 1,13-1,00-9,66 30,50 46,60 0,00 Linear 0,92 1,26-0,244 1,11 4,67 32,44 48,00 43,80 M5P 0,83 1,19-0,125 1,06 20,57 24,79 51,20 43,40 Bagging(M5P) 0,82 1,17-0,073 1,03 12,48 27,72 50,00 40,20 CPL-REG 1,12 1,41-0,564 1,10 1,61 20,88 49,00 13,20 Tablica 8. Wyniki modeli regresyjnych z podziałem na zbiór uczący i testowy 1000/500. Przedstawione wyniki obliczono na zbiorze testowym, model budowany był na zbiorze treningowym. Źródło: opracowanie własne przykładzie jednodniowych zmian indeksu giełdy amerykańskiej S&P500. Techniki te to: klasyfikator liniowy, regresja przedziałowa oraz selekcja cech oparta na relaksacji liniowej separowalności poprzez odpowiednie modyfikowanie parametru regularyzacyjnego. Aby zbadać jakość prognozy i móc porównać ją z innymi popularnymi klasyfikatorami i modelami regresyjnymi, w ramach pracy stworzona została aplikacja w języku programowania Java. Opracowano i zaimplementowano w niej oprócz standardowych miar jakości tych modeli, również miary finansowe zysku i ryzyka. Miary takie wprowadzono przy założeniu pewnej strategii inwestycyjnej, która dopuszcza krótką sprzedaż. Zaproponowano również sposób maksymalizacji tej miary w procesie budowy klasyfikatora. Otrzymane wyniki potwierdziły popularną opinię, iż prognozowanie giełdy jest zadaniem trudnym. Otrzymane rezultaty eksperymentów skłaniają do następujących wniosków: podejście naiwne, prognozujące tylko wzrost często okazuje się najlepsze gdy jakość zmierzymy trafnością klasyfikacji, dzieje się tak jednak tylko w okresach utrzymującego się trendu, przy jego zmianie podejście to może być bardzo niebezpieczne, modele regresyjne poradziły sobie gorzej w prognozie danych giełdowych niż modele klasyfikacyjne. Z punktu widzenia inwestora ważne jest osiągnięcie zysku i uniknięcie straty, do tego celu wystarcza jedynie prognoza kierunku zmiany notowań i nie jest konieczna dokładna wielkość tej zmiany, jeden z lepszych wyników osiągnięto przy pomocy klasyfikatora liniowego typu CPL w połączeniu z doborem parametru regularyzacyjnego metodą RLS. Wynik ten to 27,15% zysku średniorocznego przy ryzyku mierzonym maksymalnym obsunięciem kapitału na poziomie 13,47%. Obie te wielkości są istotne statystycznie na poziomie istotności 95%. 19

Należy zatem stwierdzić, że metody eksploracji danych oparte o funkcje typu CPL mogą być skutecznym narzędziem prognozowania notowań giełdowych, najlepszy wynik uzyskano metodą najbliższych sąsiadów (zysk roczny 31,81% na poziomie istotności 99%). Może to skłaniać do wniosku iż metody oparte o wyszukiwanie w przeszłości podobnych sytuacji na giełdzie tzw. analizę przypadku (ang. case-based reasoning) mogą być użyteczne w konstrukcji strategii inwestycyjnych, Za najważniejsze oryginalne elementy zawarte w niniejszej pracy uznać należy: wykorzystanie technik eksploracji danych opartych na funkcjach typu CPL do prognozy notowań giełdowych, opracowanie założeń oceny metod eksploracji danych takich jak klasyfikacja i regresja za pomocą miar finansowych zysku i ryzyka, wprowadzenie testu istotności miar finansowych za pomocą symulacji Monte Carlo, zdefiniowanie miary zysku finansowego w taki sposób, który umożliwił jego maksymalizację przy budowie klasyfikatora liniowego typu CPL, implementacja systemu do analizy notowań giełdowych za pomocą metod eksploracji danych. Oznaczenie Opis acc trafność prognozy (ang. accuracy) sens czułość (ang. sensitivity) - trafnie rozpoznanych prawdziwych wzrostów 1 spec specyficzność (ang. specifity) - trafnie rozpoznanych prawdziwych spadków 0 bacc zbalansowana trafność (ang. balanced accuracy) err średni błąd bezwzględny modeli regresyjnych err 2 średni błąd kwadratowy modeli regresyjnych R 2 sdratio z/s rok mdd long współczynnik determinacji obliczany dla modeli regresyjnych iloraz odchylenia standardowe błędów i zmiennej objaśnianej S.D.Ratio potencjalny zysk/strata (ang. profit and loss) maksymalne obsunięcie kapitału (ang. maximum drawdown) procent prognozy wzrostów (pozycji długiej) Tablica 9. Zastosowane skróty w oznaczeniach miar jakości. Źródło: opracowanie własne.

Klasyfikator Opis ZeroR klasyfikator większościowy knn metoda K najbliższych sąsiadów [1] C4.5 drzewo decyzyjne [37] NaiveBayes naiwny klasyfikator Bayesa [18] Logistic model logistyczny [11] SVM maszyna wektorów wspierających, algorytm SMO [36] CPL klasyfikator liniowy oparty na funkcji kryterialnej typu CPL [5] CPL-RLS klasyfikator liniowy CPL [5], parametr regularyzacyjny λ dobierany jest zgodnie z metodą relaksacjji liniowej separowalności [6] Model regresyjny Opis Linear regresja liniowa z regularyzacją (λ = 10 8 ) M5P drzewa modelowe M5 [42] (M = 4) Bagging(M5P) algorytm Bagging [10] dla drzew modelowych M5 CPL-REG regresja przedziałowa [7] Tablica 10. Przyjęte skróty w oznaczeniach modeli klasyfikacyjnych i regresyjnych. Źródło: opracowanie własne. 21

Bibliografia [1] D. Aha and D. Kibler. Instance-based learning algorithms. Machine Learning, 6:37 66, 1991. [2] C.M. Bishop. Neural Networks for Pattern Recognition. Neural Networks for Pattern Recognition. Oxford University Press, Incorporated, 1995. [3] L. Bobrowski. Feature selection based on some homogeneity coefficient. Pattern Recognition, 9th International Conference, pages 544 546, 1988. [4] L. Bobrowski. Design of piecewise linear classifiers from formal neurons by a basis exchange technique. Pattern Recognition, 24(9):863 870, 1991. [5] L. Bobrowski. Eksploracja danych oparta na wypukłych i odcinkowo-liniowych funkcjach kryterialnych. Wydawnictwa Politechniki Białostockiej, Białystok, 2005. [6] L. Bobrowski and T. Łukaszuk. Feature selection based on relaxed linear separability. Biocybernetics and Biomedcal Engineering, 29(2):43 59, 2009. [7] L. Bobrowski and T. Łukaszuk. Prognostic modeling with high dimensional and censored data. Advances in Data Mining. Applications and Theoretical Aspects, pages 178 193, 2012. [8] T. Bollerslev. Generalized autoregressive conditional heteroskedasticity. Journal of Econometrics, 31:307 327, 1986. [9] G.E.P. Box and G.M. Jenkins. Analiza szeregów czasowych. Państwowe Wydawnictwo Naukowe, 1983. [10] L. Breiman. Bagging predictors. Machine Learning, 24:123 140, 1996. [11] S. Cessie and J.C. Houwelingen. Ridge estimators in logistic regression. Applied Statistics, 41:191 201, 1992. [12] A. Chen, M.T. Leung, and H. Daouk. Application of neural networks to an emerging financial market: forecasting and trading the taiwan stock index. Computers & Operations Research, 30(6):901 923, 2003. [13] C. Cortes and V. Vapnik. Support-vector networks. Machine learning, 20(3):273 297, 1995. [14] R.F. Engle. Autoregressive conditional heteroskedasticity with the estimates of the variance of u.k. inflation. Econometrica, 4:987 1007, 1982. [15] E. Gately. Neural Networks for Financial Forecasting. John Wiley & Sons, Inc., New York, NY, USA, 1995. [16] J.D. Hamilton. Time Series Analysis. Princeton University Press, 1994. 22

[17] E.A. Helfert. Financial analysis: tools and techniques: a guide for managers. McGraw-Hill New York, 2001. [18] G. H. John and P. Langley. Estimating continuous distributions in bayesian classifiers. Eleventh Conference on Uncertainty in Artificial Intelligence, 11:338 345, 1995. [19] K. J. Kim. Financial time series forecasting using support vector machines. Neurocomputing, 55(1):307 319, 2003. [20] T. Kimoto, K. Asakawa, M. Yoda, and M. Takeoka. Stock market prediction system with modular neural networks. International Joint Conference on Neural Networks, 1:1 6, 1990. [21] J. Krawczuk. Zastosowanie metod symulacyjnych w wycenie pochodnych instrumentów finansowych. Symulacja w Badaniach i Rozwoju, pages 147 153, 2006. [22] J. Krawczuk. Random test for trading system. Zeszyty Naukowe Politechniki Białostockiej, seria Informatyka, (4):63 72, 2009. [23] J. Krawczuk. Forecasting stock index movement direction with cpl linear classifier. Zeszyty Naukowe Politechniki Białostockiej. Informatyka, (7):47 58, 2011. [24] J. Krawczuk. Klasyfikator liniowy typu cpl uwzględniający koszty błędów klasyfikacji jako narzędzie prognozowania giełdy. Metody Ilościowe w Badaniach Ekonomicznych, 12(2):232 240, 2011. [25] J. Krawczuk. Skuteczność metod klasyfikacji w prognozowaniu kierunku zmian indeksu giełdowego sp500. Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia, (242):275 282, 2012. [26] J. Krawczuk. Wpływ długości okresów uczenia na prognozę indeksu giełdowego opartą na klasyfikatorze liniowym typu cpl. Zeszyty Naukowe. Uniwersytet Ekonomiczny w Poznaniu, pages 119 130, 2012. [27] J. Krawczuk and L.Bobrowski. Short term prediction of stock index changes based on linear classification. Symulacja w Badaniach i Rozwoju, (4):363 372, 2010. [28] M. T. Leung, H. Daouk, and A. Chen. Forecasting stock indices: a comparison of classification and level estimation models. International Journal of Forecasting, 16(2):173 190, 2000. [29] A.W. Lo and A.C. MacKinlay. Stock market prices do not follow random walks: Evidence from a simple specification test. Review of financial studies, 1(1):41 66, 1988. [30] Malik Magdon-Ismail and Amir Atiya. Maximum drawdown. Risk Magazine, 17(10):99 102, 2004. [31] H. Markowitz. Portfolio selection. The journal of finance, 7(1):77 91, 1952. [32] J. Murphy. Analiza Techniczna Rynków Finansowych. WIG Press, Warszawa, 1999. 23

[33] M. O Connor, W. REMUS, and K. GRIGGS. Going up?going down: How good are people at forecasting trends and changes in trends? Journal of Forecasting, 16(3):165 176, 1997. [34] P. Ou and H. Wang. Prediction of stock market index movement by ten data mining techniques. Modern Applied Science, 3(12):28 42, 2009. [35] R. Pardo. The Evaluation and Optimization of Trading Strategies. Wiley Trading. Wiley, 2011. [36] J. Platt et al. Sequential minimal optimization: A fast algorithm for training support vector machines. 1998. [37] R. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, Warszawa, 1993. [38] F. Rosenblatt. The Perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65:386 408, 1958. [39] W.F. Sharpe. Mutual fund performance. The Journal of Business, 39(1):119 138, 1966. [40] R. Tibshirani. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, Series B, 58:267 288, 1994. [41] R. Tibshirani. Regression shrinkage and selection via the lasso: a retrospective. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 73(3):273 282, 2011. [42] Y. Wang and I.H. Witten. Induction of model trees for predicting continuous classes. Poster papers of the 9th European Conference on Machine Learning, 1997. [43] A. Wilinski. Prediction models of financial markets based on multiregression algorithms. Computer Science, 19(2):178 188, 2011. [44] W. Yangru and H. Zhang. Forward premiums as unbiased predictors of future currency depreciation: a non-parametric analysis. Journal of International Money and Finance, 16(4):609 623, 1997. [45] T. Young. Calmar ratio: A smoother tool. Futures, 20(1):40, 1991. 24