Techniki eksploracji danych oparte na funkcjach kryterialnych typu CPL jako narzędzie prognozowania notowań giełdowych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Techniki eksploracji danych oparte na funkcjach kryterialnych typu CPL jako narzędzie prognozowania notowań giełdowych"

Transkrypt

1 Techniki eksploracji danych oparte na funkcjach kryterialnych typu CPL jako narzędzie prognozowania notowań giełdowych mgr inż. Jerzy Krawczuk Promotor prof. dr hab. Leon Bobrowski POLITECHNIKA BIAŁOSTOCKA Wydział Informatyki Białystok 2013

2 Wstęp Przedmiotem niniejszej rozprawy jest wykorzystanie modeli klasyfikacyjnych i regresyjnych opartych na funkcjach kryterialnych typu CPL do prognozy szeregów czasowych notowań giełdowych na przykładzie indeksu giełdy amerykańskiej S&P500. Gdy w prasie bądź telewizji słyszymy o wzrostach bądź spadkach na giełdzie, wiadomości te dotyczącą najczęściej indeksów giełdowych gdyż to właśnie one oddają najlepiej zachowanie całego rynku. Dotyczą one również zmian dziennych, które dla indeksu S&P500 oscylują w okolicach 1% co do wartości bezwzględnej. Zmiany powyżej 3% zdarzają się bardzo rzadko, gdy się jednak pojawiają często słyszymy o euforii inwestorów lub o krachu na giełdzie. Zmiany wartości indeksu w okresie zaledwie jednego dnia, uważane są często za losowe i nieprzewidywalne. Jednak podejmowanych jest wiele prób takiej właśnie prognozy, m.in. za pomocą narzędzi eksploracji danych takich jak sieci neuronowe[15][2]. Tak krótka prognoza Rysunek 1. Dzienne zmiany wartości indeksu S&P500 w okresie od lutego 2010r. października 2012r. do nie jest wykorzystywana przez inwestorów giełdowych, którzy podejmują swoje decyzje w oparciu o długoterminowe oczekiwania co do rozwoju koniunktury gospodarczej i rozwoju poszczególnych gałęzi gospodarki. Może być jednak wykorzystana przez tzw. graczy giełdowych (ang. speculators), którzy przeprowadzają transakcje krótkoterminowe, starając się wykorzystać obecnie panujące nastroje na rynku i obowiązujący trend. Prognoza taka, może również posłużyć do budowy automatycznych systemów transakcyjnych tzw. robotów giełdowych. Systemy takie same podejmują decyzje kupna/sprzedaży bez ingerencji człowieka, same potrafią również wysyłać zlecenia na giełdę. Takie autonomiczne systemy 1

3 działają zarówno na dużą skalę w specjalnych funduszach inwestycyjnych nazywanych Quant Fund, ale mogą być również budowane przez drobnych inwestorów. Obecnie niektóre biura maklerskie w swoich aplikacjach do składania zleceń udostępniają interfejs programistyczny (API ang. Application Programming Interface), który umożliwia podłączenie do nich własnego oprogramowania. Firma Metastock znana z platformy inwestycyjnej Metatrader, udostępnia również specjalizowany język programowania MQL5. Jako ciekawostkę można wspomnieć iż organizowane są konkursy robotów giełdowych w których nagrody sięgają dziesiątków tysięcy dolarów 1. W tej pracy prognozowano jednodniowe zmiany indeksu S&P500 za pomocą dwóch metod eksploracji danych: modeli klasyfikacyjnych i regresyjnych. Modele klasyfikacyjne posłużyły do prognozy kierunku zmiany indeksu. Prognoza kierunku przewiduje tylko czy nastąpi wzrost czy spadek, nie prognozuje ich wielkości. W przypadku danych giełdowych jest to często prognoza wystarczająca [19]. Modele regresyjne z kolei są bardziej dokładne i starają się przewidzieć nie tylko kierunek ale również wielkość zmiany, np. wzrost indeksu o pół procenta. W dziedzinie eksploracji danych istnieje wiele modeli klasyfikacyjnych i regresyjnych, najpopularniejsze i najczęściej stosowane zostały użyte w tej pracy jak np. maszyna wektorów wspierających [13][36][19]. W zestawieniu z nimi zaproponowano nowe modele zarówno klasyfikacyjne jak i regresyjne, oparte o minimalizację wypukłej i odcinkowo liniowej funkcji kryterialnej [5][7][26] (CPL ang. Convex and Piecewise Linear). Modele te charakteryzują się stosunkowo małą złożonością obliczeniową oraz w przypadku klasyfikacji łatwością wprowadzenia do procesu uczenia informacji o zakresie zmiany indeksu. Koncepcje badawcze i teza rozprawy Prognozowanie indeksów giełdowych metodami eksploracji danych zyskuje na popularności, gdyż nie istnieją precyzyjne metody ekonometryczne mogące opisać zachowanie zmian notowań. Od kilku stuleci rozwijana jest analiza techniczna oparta w głównej mierze na analizie wykresów i pojawiających się na nich powtarzających się formacjach [32]. Od lat kilkudziesięciu stosuje się ekonometryczne szeregi czasowe [16] takie jak ARIMA [9], 1 W ramach promocji MQL5 w 2012 roku firma Metatrader już po raz szósty zorganizowała Automated Trading Championship 2012", gdzie główna nagroda wynosiła 80tys USD. Więcej informacji można odnaleźć pod adresem 2

4 ARCH [14], GARCH [8]. Od lat kilkunastu szerzej stosowane są metody eksploracji danych [34]. Każde z tych podejść prognozuje wartość indeksu w przyszłości na podstawie jego obecnej wartości i zachowania indeksu w ostatnim okresie. W przypadku metod eksploracji danych oprócz historii indeksu prognozowanego można wprowadzić wartości innych szeregów czasowych takich jak inne indeksy, kursy walut, ceny najważniejszych surowców, notowania metali szlachetnych itd. Taki wzrost ilości atrybutów opisujących stan giełdy może przyczynić się do poprawy jakości prognozy, jednak powoduje wzrost obliczeń, co skłania do zwrócenia uwagi na złożoność obliczeniową algorytmów. Dodatkowo przy dużej ilości atrybutów mogą zostać użyte metody selekcji cech, redukujące ich ilość przy zachowaniu a nawet polepszeniu własności prognostycznych budowanych modeli. Teza rozprawy: Metody eksploracji danych oparte na funkcjach kryterialnych typu CPL moga być skutecznym narzędziem prognozowania notowań giełdowych. Szczegółowe cele pracy to: analiza wybranych, dotychczas stosowanych, obliczeniowych metod prognozowania notowań giełdowych, przystosowanie metod eksploracji danych do specyfiki problemu prognozowania notowań giełdowych, opracowanie założeń i przeprowadzenie badań symulacyjnych służących ocenie użyteczności metod klasyfikacji i prognozowania typu CPL przy użyciu wybranej strategii inwestowania na giełdzie, oszacowanie skuteczności prognozowania notowań giełdowych w oparciu o metody klasyfikacji i prognozowania typu CPL na bazie badań eksperymentalnych i symulacyjnych. Treść rozprawy Treść rozprawy składa się z 9 rozdziałów, rozdział pierwszy zawierał ogólne przedstawienie zagadnienia oraz sformułowanie tezy pracy. W rozdziale drugim zamieszczono wprowadzenie do giełd papierów wartościowych. Krótko przedstawiono historię giełdy i giełdy współczesne z uwzględnieniem największych giełd na świecie. Osobny rozdział poświęcono Giełdzie 3

5 Papierów Wartościowych w Warszawie i na jej przykładzie opisano przebieg sesji giełdowej. W rozdziale trzecim opisano standardowe techniki prognozy notowań tj. analizę fundamentalną, analizę techniczną, ekonometryczne szeregi czasowe oraz metody eksploracji danych. Szerzej przedstawiono analizę techniczną, która posłużyła w tej pracy do obliczeń współczynników opisujących stan giełdy, np. panujący trend. W rozdziale czwartym dokładnie opisano wykorzystane w pracy dane, wraz z ich przekształceniami. Dokonano też analizy statystycznej zmiennej prognozowanej. Rozdział piąty i szósty przedstawia dwie bardzo popularne techniki eksploracji danych, odpowiednio klasyfikację i regresję. W obu rozdziałach opisano najpopularniejsze stosowane obecnie modele, oraz modele liniowe oparte o wypukłe i odcinkowo liniowe funkcje kryterialne CPL. Wszystkie opisane w tych rozdziałach modele posłużyły do eksperymentu, którego wyniki omówiono w rozdziale siódmym. Rozdział ósmy poświęcono krótkiemu opisowi zaimplementowanego systemu do analizy i prognozy notowań giełdowych. Rozdział dziewiąty zawiera wnioski końcowe i podsumowanie pracy. Klasyfikator CPL Klasyfikator typu CPL jest klasyfikatorem liniowym, który separuje dwa zbiory danych za pomocą hiperpłapszczyzny. Poszukiwanie hiperpłaszczyzny separującej zbiory danych z dwóch klas jest problemem od dawna pojawiającym się w eksploracji danych czy też sztucznej inteligencji. Prace te zapoczątkował Frank Rosenblatt [38], którego uważa się za twórcę idei Perceptronu oraz sztucznej sieci neuronowej. Idea Perceptronu bazuje na neuronie formalnym, który rozwiązuje problem klasyfikacji binarnej za pomocą funkcji liniowej: 1 jeżeli w T x + θ > 0 Y = 0 w przeciwnym wypadku gdzie x jest n wymiarowym wektorem cech opisującym klasyfikowany obiekt, w oraz θ są parametrami hiperpłaszczyzny. Klasyfikator liniowy typu CPL oparty jest na minimalizacji wypukłej i odcinkowo liniowej funkcji kryterialnej [5] postaci: (1) 4

6 Rysunek 2. Perceptron. Φ(w, θ) = n N [y i cost 1 (x i ) + (1 y i )cost 0 (x i )] + λ γ i w i (2) i=1 i=1 cost 1 (x) = max(0; +1 w T x + θ) cost 0 (x) = max(0; 1 + w T x θ) (3) Przy czym y i {0, 1}, gdzie λ (λ 0) jest ogólnym współczynnikiem kosztów cech (parametrem regularyzacyjnym), zaś γ i (γ i 0) są współczynnikami kosztów poszczególnych cech x i. Jest to funkcja wypukła i odcinkowo liniowa (ang. convex and piecewise-linear), której minimum może być odnalezione poprzez wydajny algorytm wymiany rozwiązań bazowych. Funkcja cost 1 związana jest z błędną klasyfikacją obiektu należącego do klasy y = 1. Wartość tej funkcji wynosi 0 gdy obiekt x znajduje się po dobrej stronie hiperpłaszczyzny (w pewnej minimalnej od niej odległości), wartość większą od 0 gdy obiekt leży zbyt blisko hiperpłaszczyzny bądź po jej złej stronie. Funkcja cost 0 analogicznie określa koszt związany z obiektami klasy y = 0. Funkcja kryterialna 2 może zostać rozszerzona o wagę związaną z każdym z obiektów w następujący sposób: Φ(w, θ) = n N α i [y i cost 1 (x i ) + (1 y i )cost 0 (x i )] + λ γ i w i (4) i=1 i=1 gdzie nieujemne parametry α j reprezentują koszty związane z obiektami x i. Rozszerzenie to zostało wykorzystane w niniejszej pracy do przypisania kosztów błędnej klasyfikacji jednodniowych wzrostów i spadków indeksu S&P500 równych wartości bezwzględnej zmian tego indeksu. Zabieg ten umożliwił budowę klasyfikatora CPL, który nie tylko optymalizował 5

7 ilość prawidłowo sklasyfikowanych dni wzrostowych i spadkowych ale również budowę klasyfikatora uwzględniającego wielkości wzrostów i spadków, co wydaje się kluczowe przy inwestowaniu na giełdzie. Porównanie klasyfikatora CPL z metoda SVM i modelem logistycznym Każde z tych trzech podejść poszukuje pewnej hiperpłaszczyzny o parametrach θ i w poprzez minimalizację podobnych funkcji. Generalnie wszystkie trzy funkcje mają dwa zasadnicze człony. Pierwszy związany z karami dla każdego obiektu, tutaj zostały one zapisane w postaci dwóch funkcji cost 0 oraz cost 1, drugi natomiast z wartościami wektora rozwiązań w tzw. członu regularyzacyjnego Φ 0 (w). n min(w, θ) { [y i cost 1 (x i ) + (1 y i ) cost 0 (x i )] + Φ 0 (w) } (5) i=1 Gdzie y i {0, 1}. W przypadku SVM i CPL koszty związane z obiektami są identyczne i wyglądają następująco: SV M,CP L cost SV M,CP L 1 (x i ) = max(0; θ + 1 w T x i ) cost0 (x i ) = max(0; θ 1 + w T x i ) Inaczej wyglądają natomiast w przypadku modelu logistycznego (ML): cost ML 1 1 (x i ) = log 1 + e (wt x i +θ) (6) cost ML 1 0 (x i ) = log(1 1 + e ) (wt x i +θ) W przypadku regularyzacji jest ona identyczna dla modelu logistycznego ML i maszyny wektorów wspierających SVM (norma l 2 ) natomiast inna dla modelu CPL (norma l 1 ). (7) Φ ML,SV M 0 (w) = λ 2 Φ CP L 0 (w) = λ N wj 2 (8) j=1 N w j (9) Rozpatrywany w tym rozdziale model SVM dotyczy jedynie przypadku, gdy funkcja jądrowa jest liniowa. rozwiązań mogą być znaczne. j=1 Pomimo podobieństw wszystkich 3 modeli, różnice otrzymywanych 6

8 Relaksacja liniowej separowalności Wiele modeli klasyfikacyjnych takich jak te porównane w tej pracy (CPL, SVM, ML) zależą od parametru regularyzacyjnego, który decyduje o tym czy model będzie bardziej dopasowany do danych treningowych czy będzie miał większe właściwości generalizacyjne. Zagadnienie doboru parametrów w taki sposób aby model jak najlepiej zachowywał się na nowych nie widzianych danych jest zagadnieniem kluczowym w budowie modeli prognostycznych. Jest to podstawowy problem, z którym spotyka się każdy badacz. Czy maksymalnie zminimalizować błąd na zbiorze uczącym czy zbudować prosty model, który być może będzie miał lepsze właściwości uogólniające i lepiej zachowa się na nowych danych (ang. bias-variance tradeoff ). W przypadku maszyny wektorów wspierających SVM, modelu logistycznego oraz klasyfikatora liniowego CPL możemy o tym decydować poprzez parametr regularyzacyjny. Czym większa wartość parametru λ we wzorze (5), tym większe znaczenie w minimalizowanej funkcji będą miały wartości parametrów modelu w i,.., w N. W procesie minimalizacji wartości tej funkcji, niektóre z nich mogą ulec wyzerowaniu. Sterując wartością parametru λ możemy sterować złożonością modelu. Zwykle dobór tego parametru następuje poprzez sprawdzenie kilku, kilkunastu jego wartości na skali logarytmicznej, np. w pracy [34] dla klasyfikatora SVM sprawdzane są następujące wartości C = 2 5, 2 4,..., 2 5. W przypadku klasyfikatora opartego na funkcjach typu CPL dobór wartości parametru regularyzacyjnego może zostać przeprowadzony w taki sposób, aby kolejno zerować wartości współczynników modelu w i gdzie i = 1..N. Idea takiego rozwiązania została zaproponowana po raz pierwszy przez Bobrowskiego [3] i rozwijana w kolejnych latach [6] owocując implenentacją zrównolegloną w języku C, użytą do obliczeń w niniejszej rozprawie. Metoda ta znana pod nazwą relaksacji liniowej separowalności RLS (ang. relaxed linear separability) jest metodą selekcji cech. Generuje ona podprzestrzenie o coraz mniejszych wymiarach kończąc na przestrzeni jednowymiarowej, eliminując kolejno cechy poprzez odpowiednie zwiększanie wartości parametru λ. Podobna metoda selekcji cech dla modeli regresyjnych znana jest pod nazwą LASSO [40] [41]. Metoda ta została wykorzystana do obliczeń w tej pracy w następujący sposób. Został wygenerowany ciąg podprzestrzeni zgodnie z metodą RLS, każda z nich została oceniona za pomocą trafności klasyfikacji acc obliczonej metodą leave-one-out. Dla najlepszej podprzestrzeni został zbudowany klasyfikator CPL z parametrem λ = 0, 0005/n, gdzie n liczność zbioru. 7

9 Regresja przedziałowa z wykorzystaniem funkcji typu CPL Wykorzystanie funkcji typu CPL w problemie regresji przedziałowej zostało zaproponowane w pracy [7]. W podejściu tym, liniowy model regresyjny poszukiwany jest poprzez sprowadzenie problemu regresji do problemu liniowej separowalności. Główne różnice z klasycznym modelem regresji liniowej są następujące: funkcja kryterialna oparta jest o błąd bezwzględny, nie kwadratowy wartośći y i nie są znane dokładnie, znane są przedziały do których należą [l i, u i ] regularyzacja oparta jest o normę l 1, nie o normę l 2 Funkcja kryterialna typu CPL w problemie regresji przedziałowej może zostać zapisana następująco: Q 1 (v) = 1 n n [ cost 1 (z i, l i ) + i=1 n N cost 0 (z i, u i )] + λ v i (10) i=1 i=1 l i v T z i jeżeli v T z i < l i cost 1 (z i, l i ) = 0 w przeciwnym wypadku v T z i y i jeżeli v T z i > u i cost 0 (z i, u i ) = 0 w przeciwnym wypadku (11) (12) gdzie v = [v 0, v 1,..., v N ] jest wektorem parametrów modelu, natomiast z i = [1, x i,1,..., x i,n ] poszerzonym wektorem zmiennych objaśniających. Jest to analogiczna postać funkcji kryterialnej typu CPL jaka występuje w problemie klasyfikacji. Przy czym dla jednego obiektu w problemie regresji klasycznej (x i, y i ) należy utworzyć dwa obiekty (1, x i, l i, 0) i (1, x i, u i, 1) w problemie klasyfikacji. Eksperyment Celem przeprowadzonych w tej pracy eksperymentów jest pokazanie użyteczności technik eksploracji danych opartych na funkcjach kryterialnych typu CPL w prognozowaniu notowań giełdowych. Wykorzystane techniki to klasyfikator liniowy, regresja przedziałowa, oraz selekcja cech bazująca na relaksacji liniowej separowalności RLS. Wyniki tych metod zostały porównane z innymi popularnie stosowanymi klasyfikatorami np. maszyną wektorów wspierających SVM, modelami regresyjnymi np. regresją liniową. 8

10 Bardzo ważnym aspektem eksperymentów jest sposób pomiaru jakości modeli. Większość autorów stosuje podział na zbiór treningowy (często nazywany z ang. in-sample) oraz testowy (ang. out-of-sample). W przypadku notowań giełdowych zbiór testowy jest następujący w czasie po zbiorze treningowym. Ważne są również stosowane miary jakości, które można podzielić na dwie grupy: miary klasyczne stosowane w eksploracji danych, oraz miary finansowe np. miara zysku. Miary finansowe można obliczyć, gdy przyjmie się pewną strategię inwestycyjną opartą na wskazaniach zbudowanych modeli. Strategia taka opisuje jak zastosować prognozę modelu w praktyce, czyli kiedy kupić bądź sprzedaż określoną ilości instrumentu notowanego na giełdzie. Strategii takich może być wiele, ta użyta w tej pracy zakłada możliwość zarabiania na spadkach indeksu. Prognozowanie notowań giełdowych jest zadaniem trudnym, gdyż zachowują się one chaotycznie, zależą od bardzo wielu czynników, w tym zdarzeń losowych, jednak pokazano iż notowania te nie są błądzeniem losowym (ang. random walk) [29]. Pierwsze próby prognozy giełdy za pomocą metod uczenia maszynowego, to prognozy dokładnej wartości notowania w przyszłości za pomocą sieci neuronowych [20] [15]. Jakość takich modeli mierzona była najczęściej za pomocą błędu średniokwadratowego bądź średniego błędu bezwzględnego jak również współczynnika determinacji R 2. W tej pracy wartość dokładna jednodniowej zmiany indeksu S&P500 prognozowana jest za pomocą modeli regresyjnych. W ostatnim dziesięcioleciu można zauważyć tendencję do prognozowania jedynie kierunku zmiany wartości indeksu, a nie jego dokładnej wartości. Z punktu widzenia inwestora prognoza taka jest często wystarczająca, gdyż decyduje o możliwości osiągnięcia zysku i uniknięcia straty. Jedne z pierwszych prac w tym zakresie pochodzą z roku 1997 [44][33], jednak ich autorzy nie używali modeli klasyfikacyjnych. Pierwsze próby zastosowania techniki klasyfikacji dla notowań giełdowych odnajdziemy w pracy [28] (analiza dyskryminacyjna Fishera, model logistyczny, probabilistyczna sieć neuronowa). Autor uzyskał wyniki rzędu 48-63% trafności klasyfikacji acc prognozując miesięczne zmiany indeksu S&P500 na 60 elementowym zbiorze testowym. Podobne techniki klasyfikacyjne wykorzystał Chen [12] dla indeksu giełdy w Tajwanie. W pracy tej odnajdziemy również wykorzystanie miary zysku finansowego, który liczony był na bazie innej strategii inwestycyjnej niż ta proponowana w tej rozprawie. Strategia nie zakładała krótkiej sprzedaży i polegała na inwestycji w indeks, gdy przewidywany był jego wzrost, oraz wycofanie się z rynku i inwestycje w bezpieczne obligacje skarbowe gdy przewidywany był jego spadek. Miara osiąganego zysku finansowego 9

11 oscylowała w granicach 7-10% w skali roku. Nowością w tej pracy było również zastosowanie nie tylko podziału zbioru na treningowy i testowy, ale również testu kroczenia do przodu. Jest to technika bardzo popularna wśród osób badających automatyczne strategie inwestycyjne [35]. Została ona również opisana i użyta w tej rozprawie. W kolejnej pracy Kim [19] zastosował po raz pierwszy maszynę wektorów wspierających SVM do predykcji kierunku zmiany indeksu giełdy Japońskiej NIKKEI 225. Prognozował on jednodniową zmianę wartości tego indeksu, dobierając parametry modelu na 1637 elementowym zbiorze treningowym i testując otrzymany klasyfikator na 581 zbiorze testowym. Jakość modeli mierzona była trafnością klasyfikacji acc, która na zbiorze testowym zawierała się w przedziale 50-57%. Niemal połowa stosowanych w tej rozprawie wskaźników analizy technicznej pokrywa się z tymi użytymi w pracy Kim. W niniejszej pracy uzyskano podobne wyniki na poziomie 50-57% trafności klasyfikacji, oraz miary zysku finansowego 10-30% w skali roku. Dane źródłowe Dane źródłowe wykorzystane w rozprawie do przeprowadzenia eksperymentów obliczeniowych to notowania dzienne 9 instrumentów finansowych notowanych na giełdach amerykańskich z okresu od do (1648 dni notowań). Notowania dzienne obejmują cenę otwarcia, cenę największą i najmniejszą oraz cenę zamknięcia (OHLC z ang. Open High Low Close). Osiem spośród dziewięciu instrumentów to tzw. ETF 2 (ang. Exchange-Traded Fund) są to specjalne fundusze inwestycyjne, których zadaniem jest wierne odzwierciedlenie wskazanego indeksu. Przykładowo ETF o symbolu SPY odzwierciedla dokładnie zachowanie indeksu S&P500. Ideą ETF jest to, aby zarządzanie funduszem mogło odbywać się algorytmicznie, przez co koszt zarządzania takim funduszem jest minimalny. Nie wymagana jest wiedza ekspercka, śledzenie wyników spółek i analiza makroekonomiczna, wystarczy w sposób automatyczny utrzymywać portfel analogiczny do składu indeksu. Szczegóły użytych instrumentów przedstawia tabela. Oprócz ETF-ów znalazł się również jeden indeks zmienności oznaczony symbol VIX. Jego wartości odpowiadają oczekiwanej zmienności indeksu S&P Wprowadzone po raz pierwszy w USA w 1993 roku, w europie istnieją od 1999 roku, w Polsce pierwszy ETF pojawił się dopiero w 2010 roku. 10

12 Symbol SPY EWG FXI GLD SLV USO FXE FXB VIX Nazwa indeks S&P500 rynku amerykańskiego index DAX rynku niemieckiego rynek chiński złoto srebro ropa naftowa kurs dolara do euro kurs dolara do funta brytyjskiego indeks zmienności rynku amerykańskiego Tablica 1. Użyte w pracy instrumenty finansowe. Oprócz VIX wszystkie są ETF-ami reprezentującymi kilka największych rynków akcji, metali szlachetnych, surowców i walut. Indeks VIX reprezentuje zmienność indeksu S&P500 Ceny tych instrumentów nie były używane bezpośrednio do konstrukcji modeli, poddane one zostały przekształceniom przedstawionym w tabeli 2. Na ich podstawie dla każdego dnia, utworzono N = 27 wymiarowy wektor cech x = [x 1,..., x N ]. Ilość wektorów cech (ilość dni) to n = 1500, notowanie każdego dnia oznaczmy jako x i, gdzie i = 1...n. Liczność zbioru uczącego n = 1500, jest niższa od ilości dostępnych notowań wynoszących Wynika to z faktu, iż pierwszy wektor w zbiorze uczącym został wyliczony dla , wcześniejsze 147 dni posłużyły do wyliczenia wartości wskaźników analizy technicznej. Zachowano tak długi okres, aby średnie wykładnicze można było obliczyć z wystarczającą dokładnością. Dane uczące kończą się również jeden dzień przed końcem danych z notowaniami, tak aby dla ostatniego wektora z dnia można było wyznaczyć wartość prognozowaną. Miara zysku finansowego Ze względu na giełdowe pochodzenie prognozowanych w tej pracy danych, wprowadzono dodatkową miarę jakości modelu opartą o aspekt finansowy. Miary jakości takie jak trafność prognozy wywodzą się z eksploracji danych. Natomiast z punktu widzenia inwestora potencjalnie używającego jednego z prezentowanych modeli istotne jest to, czy możliwe jest osiągnięcie zysku. Aby przybliżyć praktyczną użyteczność modeli wprowadzono miarę 11

13 Numer Symbol Nazwa zmiennej Opis zmiennej 1-7 SPY ROC(1, close, close) procentowa zmiana od ostatniego zamknięcia, jest to wartość prognozowana. Siedem historycznych wartości prognozowanych branych jest jako dane wejściowe, sprzed 1,2,5,8,9,17 i 18 dni. 8 SPY ROC(1, close, close) 2 kwadrat ostatniej zmiany 9 SPY ROC(2, close, close) procentowa zmiana od przedostatniego zamknięcia, zmiana dwudniowa 10 SPY ROC(0, close, open) procentowa zmiana od otwarcia 11 SPY ROC(1, open, open) procentowa zmiana dzisiejszego otwarcia w porównaniu do wczorajszego otwarcia 12 SPY ROC(1, open, close) procentowa zmiana dzisiejszego otwarcia w porównaniu do wczorajszego zamknięcia (tzw. luka otwarcia) 13 SPY Disparity(5) procentowa różnica ceny zamknięcia i jej 5 dniowej średniej 14 SPY Disparity(10) procentowa różnica ceny zamknięcia i jej 10 dniowej średniej 15 SPY M ACD(12, 26) różnica średnich wykładniczych z 12 i 26 dni 16 SPY %K(14) wartość oscylatora %K z okresu 14 dni 17 SPY %R(10) wartość oscylatora %R z okresu 10 dni 18 SPY RSI(14) wartość oscylatora RSI z okresu 14 dni 19 SPY AT R(14) wartość wskaźnika zmienności AT R z okresu 14 dni 20 VIX close wartość zamknięcia indeksu zmienności VIX Inne M ACD(12, 26) różnica średnich wykładniczych z 12 i 26 dni Tablica 2. Wybrane 27 cech opisujących stan giełdy każdego dnia. Inne symbole to: EWG FXI GLD SLV USO FXE FXB 12

14 prognoza prognoza pozycja klasyfikatora modelu regresyjnego pozycja i = 1 długa y i = 1 wzrost ŷ i 0 pozycja i = 1 krótka y i = 0 spadek ŷ i < 0 Tablica 3. Definicja strategii inwestycyjnej dla modeli klasyfikacyjnych i regresyjnych. Pozycja długa zajmowana jest gdy klasyfikator prognozuje klasę wzrostu a model regresyjny dodatnią zmianę indeksu. Pozycja krótka w przeciwnych przypadkach. Źródło: opracowanie własne. zysku/straty (ang. profit and loss [17]) zdefiniowaną następująco: zysk/strata = n y i p i (13) i=1 gdzie y i oznacza zmianę dzienną prognozowanego indeksu S&P500, natomiast p i { 1, 1} oznacza zajmowaną pozycję. Pozycja może być długa p i = 1 (ang. long), gdy inwestor zakupił indeks i liczy na jego wzrost, ale może być również krótka p i = 1 (ang. short) gdy dokonał tzw. krótkiej sprzedaży i liczy na jego spadek. Krótka sprzedaż umożliwia zarabianie na spadkach (ale też tracenie na wzrostach). Definicja strategii inwestycyjnej: Strategia dla klasyfikatora: zajmij pozycję długą na zamknięciu giełdy w dniu i gdy y i = 1, natomiast krótką gdy y i = 0. Mówiąc inaczej dokonaj zakupu indeksu gdy klasyfikator prognozuje klasę wzrostu i dokonaj krótkiej sprzedaży gdy prognozuje jego spadek. Strategia dla modelu regresyjnego : w dniu i zajmij pozycję długą gdy prognoza ŷ i 0 oraz krótką gdy ŷ i < 0. Zestawienie reguł decyzyjnych dla obu modeli zawiera tabela 3. Miara zysku/straty nie uwzględnia wielkości zbioru na którym jest obliczana, inaczej mówiąc okresu dla którego osiągnięto taki zysk bądź stratę. Inwestor inaczej zinterpretuje wynik +5.0% w okresie 20 dni a inaczej w okresie 200 dni, oczywiście ten pierwszy wynik jest znacznie lepszy. Dlatego też miara zysku/straty została ustandaryzowana do okresu rocznego 13

15 (252 dni roboczych): zysk/strata rok = n zysk/strata (14) 252 Miara ryzyka finansowego Zawsze przy okazji omawiania inwestowania, oprócz zysku pojawia się pojęcie ryzyka. O ile w przypadku obliczania zysku z symulacji pewnej strategii inwestycyjnej, sprawa jest dosyć oczywista to w przypadku ryzyka już tak nie jest. Ryzyko finansowe jest pojęciem trudniejszym do uchwycenia i zmierzenia. Jedną z pierwszych miar ryzyka stosowaną np. przez Markovitza w teorii portfela była wariancja stopy zwrotu [31]. Czym bardziej zmieniają się ceny instrumentów, czy też wartość całego portfela, tym bardziej ryzykowna jest inwestycja. Ten rodzaj ryzyka można zaszeregować jako ryzyko wystąpienia sytuacji innej niż spodziewana (czyli oczekiwana stopa zwrotu). Obejmuje ono zarówno możliwość wystąpienia sytuacji gorszej (przykra niespodzianka), ale również lepszej (przyjemne zaskoczenie). Inną miarą ryzyka, która skupia się jedynie na jego negatywnej stronie jest maksymalne obsunięcie kapitału [30] (ang. maximum drawndown mdd). Miara ta reprezentuje największą procentową stratę w badanym okresie. Odpowiada to najgorszemu z możliwych scenariuszy, w którym inwestor kupuje na szczycie i sprzedaje w dołku. Jednak należy zauważyć, że nie jest to równoznaczne z kupnem w historycznym maksimum i sprzedaży w minimum, ponieważ wielkość ta mierzona jest procentowo. Ta właśnie miara została użyta w tej rozprawie do zobrazowania ryzyka z inwestycji. Istnieją również połączone miary zysku oraz ryzyka. Jedna z najczęściej stosowanych jest Sharp ratio [39], które liczone jest jako stosunek zysku do ryzyka mierzonego odchyleniem standardowym. Podobną miarą jest kryterium Calmara [45], liczone również jako stosunek zysku do ryzyka, jednak ryzyka mierzonego maksymalnym obsunięciem kapitału. Zastosowanie tej miary odnajdziemy m.in. w pracy [43] wykorzystującej regresję do konstrukcji strategii inwestycyjnych dla indeksu polskiej giełdy WIG20. Klasyfikatory optymalizujace zysk finansowy Domyślnie klasyfikatory budowane są tak, aby maksymalizowały ilość prawidłowo sklasyfikowanych obiektów, nie przypisując poszczególnym obiektom różnych wag. Okazuje się jednak, iż wiele klasyfikatorów można budować w taki sposób aby uwzględniały one 14

16 indywidualne koszty błędnej klasyfikacji dla każdego obiektu z osobna. W przypadku klasyfikatora CPL jest to możliwe poprzez podanie odpowiednich wartości parametrów α i we wzorze (4) [24]. Wiele innych klasyfikatorów również posiada taką możliwość. Wszystkie sześć klasyfikatorów z pakietu do analizy danych Weka użyte w tej pracy również posiada taką możliwość (implementują interfejs WeightedInstancesHandler). Przykładowo klasyfikator większościowy ZeroR będzie klasyfikował obiekty nie do klasy najbardziej licznej, a do klasy w której suma kosztów wszystkich jej obiektów będzie największa. Jest to sytuacja, która dokładnie odpowiada tej przy prognozowaniu wzrostów i spadków na giełdzie. Bardziej zależy nam na prawidłowej klasyfikacji (prognozie) wzrostu o 2% niż o 0,1%. Podobnie w przypadku spadków. Jednak zarówno wzrost o 2% jak i spadek o 2% są równoważne, jeżeli przyjmiemy możliwość dokonywania krótkiej sprzedaży. Dlatego też, z każdym z obiektów możemy zwiazać wagę równa wartości bezwzględnej prognozowanej zmiany procentowej. Będziemy chcieli budować takie klasyfikatory, które będą prawidłowo klasyfikować większe zmiany indeksu S&P500 (zarówno wzrosty jak i spadki). Dzięki takiemu zdefiniowaniu kosztów na poziomie obiektów, klasyfikatory będą budowane tak, aby maksymalizowały zdefiniowany wcześniej (13) zysk finansowy. Jest to ciekawa właściwość klasyfikatorów, która nie została jeszcze spopularyzowana dla prognozy notowań giełdowych. Statystyczna istotność wyników Niewątpliwie najważniejsze z punktu widzenia badanych w tej pracy zastosowań technik eksploracji danych jest osiągnięcie zysku finansowego. Zarówno klasyfikacja jak i regresja zostały zastosowane do podjęcia decyzji o zajęciu odpowiedniej pozycji na giełdzie, czyli została zdefiniowana tzw. strategia inwestycyjna. Postawimy zatem hipotezę zerową H0, iż strategia działająca w oparciu o badane modele jest losowa, czyli zajmuje pozycję długa bądź krótka każdego dnia w sposób losowy (z prawdopodobieństwem 50%). Hipoteza alternatywna H1: użyty model daje wyniki lepsze niż strategia losowa. W celu weryfikacji tak postawionej hipotezy wykonano milion symulacji z użyciem strategii losowej [22]. Otrzymano dzięki temu milion różnych wyników miar jakości. Histogram dla miary z/s rok przedstawiono na rysunku 3. Z histogramu możemy odczytać wartości krytyczne testu dla różnych poziomów istotności. Jeżeli model osiągnął zysk większy niż wartość krytyczna, wówczas odrzucamy hipotezę zerową iż jest to strategia losowa. Oznaczmy przez c wartość krytyczną, wówczas: 15

17 H0: Jakość modelu nie jest znacząco lepsza od strategii losowej. miara(model) c H1: Jakość modelu jest znacząco lepsza od strategii losowej. miara(model) > c Zestawienie trzech najbardziej popularnych poziomów istotności i odpowiadających im wartości krytycznych poszczególnych miar jakości zawiera tabela 4. W przypadku miary ryzyka finansowego mdd im jest ono mniejsze tym lepiej, czyli odrzucimy H0 gdy mdd < c (znak odwrotny niż dla pozostałych miar). Poziom istotności acc bacc z/s rok mdd 90% 52,80 52,88 16,35 15,69 95% 53,60 53,69 20,90 13,71 99% 55,20 55,22 29,49 10,95 średnia 50,00 50,00-0,02 29,82 mediana 50,00 50,00-0,03 27,16 Tablica 4. Wartości krytyczne różnych miar jakości modeli dla trzech wybranych poziomów istotności otrzymane z miliona symulacji strategii losowej na zbiorze testowym. Źródło: opracowanie własne. Rysunek 3. Histogram miary zysku finansowego z/s rok strategii losowej wykonanych na zbiorze testowym. otrzymany dla miliona symulacji Wybrane wyniki eksperymentów W jednym z przeprowadzonych eksperymentów zbiór danych został podzielony na zbiór treningowy złożony z pierwszych 1000 obserwacji oraz zbiór testowy z 500 obserwacji 16

18 ilość zmiana ilość okres obiektów indeksu S&P500 dni wzrostowych treningowy ,41% 54,30% testowy ,85% 55,60% Tablica 5. Podstawowe statystyki okresu treningowego i testowego. własne. Źródło: opracowanie następujących po nich. (tabela 5). Parametry klasyfikatora zostały dobrane na zbiorze treningowym w taki sposób aby maksymalizowały wybraną miarę jakości modelu. W tej pracy maksymalizowane są dwie miary jakości: trafność klasyfikacji acc oraz zysk finansowy z/s rok. Natomiast pomiar dokonywany jest walidacją krzyżową z podziałem na 10 zbiorów. Przy czym podział ten nie jest losowy, a co dziesiąty element trafia do każdego podzbioru. Dzięki temu w każdym z nich znajdują się obiekty z różnych okresów. Miary jakości wyliczane były jedynie na zbiorze złożonym z 500 ostatnich obiektów, czyli 500 dni notowań od do Podstawowe statystyki dla tego okresu zawiera tabela 5. Przyjęte skróty w oznaczeniach modeli klasyfikacyjnych i regresyjnych zawiera tabela 10 natomiast skróty stosowanych miar jakości tabela 9. Rysunek 4. Podział danych na okres treningowy i testowy. W okresie treningowym do estymacji jakości modeli zastosowano walidację krzyżową z podziałem na 10 zbiorów, przy czym każdy z nich zawierał co 10 obserwację. Źródło danych: finance.yahoo.com. 17

19 Trening Parametr Test Klasyfikator acc optymalny acc long sens spec bacc z/s rok mdd ZeroR 54,30-55,60 100,0 100,0 0,00 50,00 9,66 20,02 knn 54,80 K=53 55,20 82,40 83,91 19,37 51,59 31,81 7,96 C4.5 53,40 C= ,60 85,40 84,17 13,06 48,62 9,71 20,66 NaiveBayes 54,10 rozkł. norm. 52,40 85,20 83,81 13,06 48,44-2,96 34,80 Logistic 55,40 R=2 7 56,40 84,00 86,33 18,92 52,62 24,07 12,02 SVM 57,80 C=2 6 G=2 1 48,80 56,00 54,32 41,89 48,10 11,99 14,46 CPL 55,00 λ = ,40 54,50 56,12 47,75 51,93 15,64 16,71 CPL-RLS 56,80-52,60 57,80 59,35 44,14 51,75 27,15 13,47 Tablica 6. Wyniki optymalizacji klasyfikatorów z podziałem na zbiór treningowy i testowy 1000/500. Przetestowano różne wartości parametrów klasyfikatorów, np. ilość sąsiadów klasyfikatora knn i wybrano ten z najwyższą miarą acc na zbiorze treningowym zmierzony metodą walidacji krzyżowej z podziałem na 10 zbiorów. Źródło: opracowanie własne Trening Parametr Test Klasyfikator z/s rok optymalny z/s rok mdd acc long sens spec bacc ZeroR -24, ,66 30,50 44,40 0,0 0,00 100,0 50,0 knn 19,61 K=24 29,11 12,95 54,20 58,60 61,51 45,05 53,28 C4.5-24,82 C= ,66 30,50 44,40 0,00 0,00 100,0 50,00 NaiveBayes -6,06 met. jądr. 9,66 20,02 55,60 100,0 100,0 0,00 50,00 Logistic 30,24 R=2 8 20,81 23,93 49,40 42,60 42,81 57,66 50,23 SVM 48,12 C=2 11 G=2 1 13,30 14,68 50,60 48,60 49,28 52,25 50,77 CPL 32,88 λ = ,31 17,17 47,60 39,20 38,13 59,46 48,79 CPL-RLS 48,20-10,85 16,29 48,20 31,80 32,01 68,47 50,24 Tablica 7. Wyniki optymalizacji klasyfikatorów z podziałem na zbiór treningowy i testowy 1000/500. Optymalizowana była miara zysku finansowego z/s rok. Źródło: opracowanie własne Wnioski końcowe W pracy tej zaproponowano wykorzystanie technik eksploracji danych opartych na funkcjach kryterialnych typu CPL do prognozy finansowych szeregów czasowych na 18

20 Model regresyjny err err 2 R 2 sdratio z/s rok mdd acc long ZeroR 0,76 1,13-1,00-9,66 30,50 46,60 0,00 Linear 0,92 1,26-0,244 1,11 4,67 32,44 48,00 43,80 M5P 0,83 1,19-0,125 1,06 20,57 24,79 51,20 43,40 Bagging(M5P) 0,82 1,17-0,073 1,03 12,48 27,72 50,00 40,20 CPL-REG 1,12 1,41-0,564 1,10 1,61 20,88 49,00 13,20 Tablica 8. Wyniki modeli regresyjnych z podziałem na zbiór uczący i testowy 1000/500. Przedstawione wyniki obliczono na zbiorze testowym, model budowany był na zbiorze treningowym. Źródło: opracowanie własne przykładzie jednodniowych zmian indeksu giełdy amerykańskiej S&P500. Techniki te to: klasyfikator liniowy, regresja przedziałowa oraz selekcja cech oparta na relaksacji liniowej separowalności poprzez odpowiednie modyfikowanie parametru regularyzacyjnego. Aby zbadać jakość prognozy i móc porównać ją z innymi popularnymi klasyfikatorami i modelami regresyjnymi, w ramach pracy stworzona została aplikacja w języku programowania Java. Opracowano i zaimplementowano w niej oprócz standardowych miar jakości tych modeli, również miary finansowe zysku i ryzyka. Miary takie wprowadzono przy założeniu pewnej strategii inwestycyjnej, która dopuszcza krótką sprzedaż. Zaproponowano również sposób maksymalizacji tej miary w procesie budowy klasyfikatora. Otrzymane wyniki potwierdziły popularną opinię, iż prognozowanie giełdy jest zadaniem trudnym. Otrzymane rezultaty eksperymentów skłaniają do następujących wniosków: podejście naiwne, prognozujące tylko wzrost często okazuje się najlepsze gdy jakość zmierzymy trafnością klasyfikacji, dzieje się tak jednak tylko w okresach utrzymującego się trendu, przy jego zmianie podejście to może być bardzo niebezpieczne, modele regresyjne poradziły sobie gorzej w prognozie danych giełdowych niż modele klasyfikacyjne. Z punktu widzenia inwestora ważne jest osiągnięcie zysku i uniknięcie straty, do tego celu wystarcza jedynie prognoza kierunku zmiany notowań i nie jest konieczna dokładna wielkość tej zmiany, jeden z lepszych wyników osiągnięto przy pomocy klasyfikatora liniowego typu CPL w połączeniu z doborem parametru regularyzacyjnego metodą RLS. Wynik ten to 27,15% zysku średniorocznego przy ryzyku mierzonym maksymalnym obsunięciem kapitału na poziomie 13,47%. Obie te wielkości są istotne statystycznie na poziomie istotności 95%. 19

21 Należy zatem stwierdzić, że metody eksploracji danych oparte o funkcje typu CPL mogą być skutecznym narzędziem prognozowania notowań giełdowych, najlepszy wynik uzyskano metodą najbliższych sąsiadów (zysk roczny 31,81% na poziomie istotności 99%). Może to skłaniać do wniosku iż metody oparte o wyszukiwanie w przeszłości podobnych sytuacji na giełdzie tzw. analizę przypadku (ang. case-based reasoning) mogą być użyteczne w konstrukcji strategii inwestycyjnych, Za najważniejsze oryginalne elementy zawarte w niniejszej pracy uznać należy: wykorzystanie technik eksploracji danych opartych na funkcjach typu CPL do prognozy notowań giełdowych, opracowanie założeń oceny metod eksploracji danych takich jak klasyfikacja i regresja za pomocą miar finansowych zysku i ryzyka, wprowadzenie testu istotności miar finansowych za pomocą symulacji Monte Carlo, zdefiniowanie miary zysku finansowego w taki sposób, który umożliwił jego maksymalizację przy budowie klasyfikatora liniowego typu CPL, implementacja systemu do analizy notowań giełdowych za pomocą metod eksploracji danych. Oznaczenie Opis acc trafność prognozy (ang. accuracy) sens czułość (ang. sensitivity) - trafnie rozpoznanych prawdziwych wzrostów 1 spec specyficzność (ang. specifity) - trafnie rozpoznanych prawdziwych spadków 0 bacc zbalansowana trafność (ang. balanced accuracy) err średni błąd bezwzględny modeli regresyjnych err 2 średni błąd kwadratowy modeli regresyjnych R 2 sdratio z/s rok mdd long współczynnik determinacji obliczany dla modeli regresyjnych iloraz odchylenia standardowe błędów i zmiennej objaśnianej S.D.Ratio potencjalny zysk/strata (ang. profit and loss) maksymalne obsunięcie kapitału (ang. maximum drawdown) procent prognozy wzrostów (pozycji długiej) Tablica 9. Zastosowane skróty w oznaczeniach miar jakości. Źródło: opracowanie własne.

22 Klasyfikator Opis ZeroR klasyfikator większościowy knn metoda K najbliższych sąsiadów [1] C4.5 drzewo decyzyjne [37] NaiveBayes naiwny klasyfikator Bayesa [18] Logistic model logistyczny [11] SVM maszyna wektorów wspierających, algorytm SMO [36] CPL klasyfikator liniowy oparty na funkcji kryterialnej typu CPL [5] CPL-RLS klasyfikator liniowy CPL [5], parametr regularyzacyjny λ dobierany jest zgodnie z metodą relaksacjji liniowej separowalności [6] Model regresyjny Opis Linear regresja liniowa z regularyzacją (λ = 10 8 ) M5P drzewa modelowe M5 [42] (M = 4) Bagging(M5P) algorytm Bagging [10] dla drzew modelowych M5 CPL-REG regresja przedziałowa [7] Tablica 10. Przyjęte skróty w oznaczeniach modeli klasyfikacyjnych i regresyjnych. Źródło: opracowanie własne. 21

23 Bibliografia [1] D. Aha and D. Kibler. Instance-based learning algorithms. Machine Learning, 6:37 66, [2] C.M. Bishop. Neural Networks for Pattern Recognition. Neural Networks for Pattern Recognition. Oxford University Press, Incorporated, [3] L. Bobrowski. Feature selection based on some homogeneity coefficient. Pattern Recognition, 9th International Conference, pages , [4] L. Bobrowski. Design of piecewise linear classifiers from formal neurons by a basis exchange technique. Pattern Recognition, 24(9): , [5] L. Bobrowski. Eksploracja danych oparta na wypukłych i odcinkowo-liniowych funkcjach kryterialnych. Wydawnictwa Politechniki Białostockiej, Białystok, [6] L. Bobrowski and T. Łukaszuk. Feature selection based on relaxed linear separability. Biocybernetics and Biomedcal Engineering, 29(2):43 59, [7] L. Bobrowski and T. Łukaszuk. Prognostic modeling with high dimensional and censored data. Advances in Data Mining. Applications and Theoretical Aspects, pages , [8] T. Bollerslev. Generalized autoregressive conditional heteroskedasticity. Journal of Econometrics, 31: , [9] G.E.P. Box and G.M. Jenkins. Analiza szeregów czasowych. Państwowe Wydawnictwo Naukowe, [10] L. Breiman. Bagging predictors. Machine Learning, 24: , [11] S. Cessie and J.C. Houwelingen. Ridge estimators in logistic regression. Applied Statistics, 41: , [12] A. Chen, M.T. Leung, and H. Daouk. Application of neural networks to an emerging financial market: forecasting and trading the taiwan stock index. Computers & Operations Research, 30(6): , [13] C. Cortes and V. Vapnik. Support-vector networks. Machine learning, 20(3): , [14] R.F. Engle. Autoregressive conditional heteroskedasticity with the estimates of the variance of u.k. inflation. Econometrica, 4: , [15] E. Gately. Neural Networks for Financial Forecasting. John Wiley & Sons, Inc., New York, NY, USA, [16] J.D. Hamilton. Time Series Analysis. Princeton University Press,

24 [17] E.A. Helfert. Financial analysis: tools and techniques: a guide for managers. McGraw-Hill New York, [18] G. H. John and P. Langley. Estimating continuous distributions in bayesian classifiers. Eleventh Conference on Uncertainty in Artificial Intelligence, 11: , [19] K. J. Kim. Financial time series forecasting using support vector machines. Neurocomputing, 55(1): , [20] T. Kimoto, K. Asakawa, M. Yoda, and M. Takeoka. Stock market prediction system with modular neural networks. International Joint Conference on Neural Networks, 1:1 6, [21] J. Krawczuk. Zastosowanie metod symulacyjnych w wycenie pochodnych instrumentów finansowych. Symulacja w Badaniach i Rozwoju, pages , [22] J. Krawczuk. Random test for trading system. Zeszyty Naukowe Politechniki Białostockiej, seria Informatyka, (4):63 72, [23] J. Krawczuk. Forecasting stock index movement direction with cpl linear classifier. Zeszyty Naukowe Politechniki Białostockiej. Informatyka, (7):47 58, [24] J. Krawczuk. Klasyfikator liniowy typu cpl uwzględniający koszty błędów klasyfikacji jako narzędzie prognozowania giełdy. Metody Ilościowe w Badaniach Ekonomicznych, 12(2): , [25] J. Krawczuk. Skuteczność metod klasyfikacji w prognozowaniu kierunku zmian indeksu giełdowego sp500. Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia, (242): , [26] J. Krawczuk. Wpływ długości okresów uczenia na prognozę indeksu giełdowego opartą na klasyfikatorze liniowym typu cpl. Zeszyty Naukowe. Uniwersytet Ekonomiczny w Poznaniu, pages , [27] J. Krawczuk and L.Bobrowski. Short term prediction of stock index changes based on linear classification. Symulacja w Badaniach i Rozwoju, (4): , [28] M. T. Leung, H. Daouk, and A. Chen. Forecasting stock indices: a comparison of classification and level estimation models. International Journal of Forecasting, 16(2): , [29] A.W. Lo and A.C. MacKinlay. Stock market prices do not follow random walks: Evidence from a simple specification test. Review of financial studies, 1(1):41 66, [30] Malik Magdon-Ismail and Amir Atiya. Maximum drawdown. Risk Magazine, 17(10):99 102, [31] H. Markowitz. Portfolio selection. The journal of finance, 7(1):77 91, [32] J. Murphy. Analiza Techniczna Rynków Finansowych. WIG Press, Warszawa,

25 [33] M. O Connor, W. REMUS, and K. GRIGGS. Going up?going down: How good are people at forecasting trends and changes in trends? Journal of Forecasting, 16(3): , [34] P. Ou and H. Wang. Prediction of stock market index movement by ten data mining techniques. Modern Applied Science, 3(12):28 42, [35] R. Pardo. The Evaluation and Optimization of Trading Strategies. Wiley Trading. Wiley, [36] J. Platt et al. Sequential minimal optimization: A fast algorithm for training support vector machines [37] R. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, Warszawa, [38] F. Rosenblatt. The Perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65: , [39] W.F. Sharpe. Mutual fund performance. The Journal of Business, 39(1): , [40] R. Tibshirani. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, Series B, 58: , [41] R. Tibshirani. Regression shrinkage and selection via the lasso: a retrospective. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 73(3): , [42] Y. Wang and I.H. Witten. Induction of model trees for predicting continuous classes. Poster papers of the 9th European Conference on Machine Learning, [43] A. Wilinski. Prediction models of financial markets based on multiregression algorithms. Computer Science, 19(2): , [44] W. Yangru and H. Zhang. Forward premiums as unbiased predictors of future currency depreciation: a non-parametric analysis. Journal of International Money and Finance, 16(4): , [45] T. Young. Calmar ratio: A smoother tool. Futures, 20(1):40,

KLASYFIKATOR LINIOWY TYPU CPL UWZGLĘDNIAJĄCY KOSZTY BŁĘDÓW KLASYFIKACJI JAKO NARZĘDZIE PROGNOZOWANIA GIEŁDY

KLASYFIKATOR LINIOWY TYPU CPL UWZGLĘDNIAJĄCY KOSZTY BŁĘDÓW KLASYFIKACJI JAKO NARZĘDZIE PROGNOZOWANIA GIEŁDY METODY ILOŚCIOWE W BADANIACH EKONOMICZNYCH Tom XII/2, 2011, str. 232 240 KLASYFIKATOR LINIOWY TYPU CPL UWZGLĘDNIAJĄCY KOSZTY BŁĘDÓW KLASYFIKACJI JAKO NARZĘDZIE PROGNOZOWANIA GIEŁDY Jerzy Krawczuk Wydział

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego IBS PAN, Warszawa 9 kwietnia 2008 Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego mgr inż. Marcin Jaruszewicz promotor: dr hab. inż. Jacek Mańdziuk,

Bardziej szczegółowo

Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD

Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD Podstawy inwestowania na rynku Forex, rynku towarowym oraz Poradnik Inwestora Numer 4 Admiral Markets Sp. z o.o. ul. Aleje Jerozolimskie 133 lok.34 02-304 Warszawa e-mail: Info@admiralmarkets.pl Tel. +48

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Testy popularnych wskaźników - RSI

Testy popularnych wskaźników - RSI Testy popularnych wskaźników - RSI Wskaźniki analizy technicznej generują wskazania kupna albo sprzedaży pomagając przy tym inwestorom podjąć odpowiednie decyzje. Chociaż przeważnie patrzy się na co najmniej

Bardziej szczegółowo

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn)

Bardziej szczegółowo

Poziom przedmiotu: II stopnia. Liczba godzin/tydzień: 2W E, 2L PRZEWODNIK PO PRZEDMIOCIE

Poziom przedmiotu: II stopnia. Liczba godzin/tydzień: 2W E, 2L PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu: I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK PO PRZEDMIOCIE C1. Zapoznanie studentów z podstawowymi metodami i technikami analizy finansowej na podstawie nowoczesnych instrumentów finansowych

Bardziej szczegółowo

Poradnik Inwestora część 4. Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktach indeksowych

Poradnik Inwestora część 4. Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktach indeksowych Poradnik Inwestora część 4 Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktach Jednostka transakcyjna Rynek walutowy Standardową jednostką transakcyjną na rynku Forex jest tzw. lot oznaczający

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania

Bardziej szczegółowo

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego Dorota Witkowska Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Wprowadzenie Sztuczne

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD

Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD Podstawy inwestowania na rynku Forex, rynku towarowym oraz Poradnik Inwestora Numer 5 Admiral Markets Sp. z o.o. ul. Aleje Jerozolimskie 133 lok.34 02-304 Warszawa e-mail: Info@admiralmarkets.pl Tel. +48

Bardziej szczegółowo

Strategie VIP. Opis produktu. Tworzymy strategie oparte o systemy transakcyjne wyłącznie dla Ciebie. Strategia stworzona wyłącznie dla Ciebie

Strategie VIP. Opis produktu. Tworzymy strategie oparte o systemy transakcyjne wyłącznie dla Ciebie. Strategia stworzona wyłącznie dla Ciebie Tworzymy strategie oparte o systemy transakcyjne wyłącznie dla Ciebie Strategie VIP Strategia stworzona wyłącznie dla Ciebie Codziennie sygnał inwestycyjny na adres e-mail Konsultacje ze specjalistą Opis

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji Jacek Szcześniak Jerzy Błaszczyński Roman Słowiński Poznań, 5.XI.2013r. Konspekt Wstęp Wprowadzenie Metody typu wrapper Nowe metody

Bardziej szczegółowo

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

7. Maszyny wektorów podpierajacych SVMs

7. Maszyny wektorów podpierajacych SVMs Algorytmy rozpoznawania obrazów 7. Maszyny wektorów podpierajacych SVMs dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Maszyny wektorów podpierajacych - SVMs Maszyny wektorów podpierających (ang.

Bardziej szczegółowo

Rozpoznawanie obrazów

Rozpoznawanie obrazów Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Wprowadzenie do teorii ekonometrii Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe Zajęcia Wykład Laboratorium komputerowe 2 Zaliczenie EGZAMIN (50%) Na egzaminie obowiązują wszystkie informacje

Bardziej szczegółowo

5. Analiza dyskryminacyjna: FLD, LDA, QDA

5. Analiza dyskryminacyjna: FLD, LDA, QDA Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną

Bardziej szczegółowo

Test wskaźnika C/Z (P/E)

Test wskaźnika C/Z (P/E) % Test wskaźnika C/Z (P/E) W poprzednim materiale przedstawiliśmy Państwu teoretyczny zarys informacji dotyczący wskaźnika Cena/Zysk. W tym artykule zwrócimy uwagę na praktyczne zastosowania tego wskaźnika,

Bardziej szczegółowo

Strategia DALI no Bogey

Strategia DALI no Bogey Strategia DALI no Bogey CEL: Wysoki potencjał zysków, przy ograniczonym ryzyku OSIĄGNIĘCIA: Największa historyczna roczna strata: -16,64%, średnio roczny zysk z ostatnich 10 lat: +14,02%, zysk skumulowany

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

System transakcyjny oparty na średnich ruchomych. ś h = + + + + gdzie, C cena danego okresu, n liczba okresów uwzględnianych przy kalkulacji.

System transakcyjny oparty na średnich ruchomych. ś h = + + + + gdzie, C cena danego okresu, n liczba okresów uwzględnianych przy kalkulacji. Średnie ruchome Do jednych z najbardziej znanych oraz powszechnie wykorzystywanych wskaźników analizy technicznej, umożliwiających analizę trendu zaliczyć należy średnie ruchome (ang. moving averages).

Bardziej szczegółowo

Wycena opcji. Dr inż. Bożena Mielczarek

Wycena opcji. Dr inż. Bożena Mielczarek Wycena opcji Dr inż. Bożena Mielczarek Stock Price Wahania ceny akcji Cena jednostki podlega niewielkim wahaniom dziennym (miesięcznym) wykazując jednak stały trend wznoszący. Cena może się doraźnie obniżać,

Bardziej szczegółowo

Dopasowywanie modelu do danych

Dopasowywanie modelu do danych Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

10. Redukcja wymiaru - metoda PCA

10. Redukcja wymiaru - metoda PCA Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Klasyfikacja LDA + walidacja

Klasyfikacja LDA + walidacja Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja

Bardziej szczegółowo

Giełda. Podstawy inwestowania SPIS TREŚCI

Giełda. Podstawy inwestowania SPIS TREŚCI Giełda. Podstawy inwestowania SPIS TREŚCI Zaremba Adam Wprowadzenie Część I. Zanim zaczniesz inwestować Rozdział 1. Jak wybrać dom maklerski? Na co zwracać uwagę? Opłaty i prowizje Oferta kredytowa Oferta

Bardziej szczegółowo

Etapy modelowania ekonometrycznego

Etapy modelowania ekonometrycznego Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

OGŁOSZENIE O ZMIANIE STATUTU UNIOBLIGACJE HIGH YIELD FUNDUSZU INWESTYCYJNEGO ZAMKNIĘTEGO Z DNIA 23 CZERWCA 2016 R.

OGŁOSZENIE O ZMIANIE STATUTU UNIOBLIGACJE HIGH YIELD FUNDUSZU INWESTYCYJNEGO ZAMKNIĘTEGO Z DNIA 23 CZERWCA 2016 R. OGŁOSZENIE O ZMIANIE STATUTU UNIOBLIGACJE HIGH YIELD FUNDUSZU INWESTYCYJNEGO ZAMKNIĘTEGO Z DNIA 23 CZERWCA 2016 R. Niniejszym, Union Investment Towarzystwo Funduszy Inwestycyjnych S.A. ogłasza o zmianie

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań

Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań Raport 1/2015 Optymalizacja parametrów w strategiach inwestycyjnych dla event-driven tradingu - metodologia badań autor: Michał Osmoła INIME Instytut nauk informatycznych i matematycznych z zastosowaniem

Bardziej szczegółowo

OPCJE MIESIĘCZNE NA INDEKS WIG20

OPCJE MIESIĘCZNE NA INDEKS WIG20 OPCJE MIESIĘCZNE NA INDEKS WIG20 1 TROCHĘ HISTORII 1973 Fisher Black i Myron Scholes opracowują precyzyjną metodę obliczania wartości opcji słynny MODEL BLACK/SCHOLES 2 TROCHĘ HISTORII 26 kwietnia 1973

Bardziej szczegółowo

Wykład 8 Rynek akcji nisza inwestorów indywidualnych Rynek akcji Jeden z filarów rynku kapitałowego (ok 24% wartości i ok 90% PK globalnie) Źródło: http://www.marketwatch.com (dn. 2015-02-12) SGH, Rynki

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

ABONAMENT LISTA FUNKCJI / KONFIGURACJA

ABONAMENT LISTA FUNKCJI / KONFIGURACJA ABONAMENT PROFESJONALNY LISTA FUNKCJI / KONFIGURACJA INWESTOWANIE MOŻE BYĆ FASCYNUJĄCE GDY POSIADASZ ODPOWIEDNIE NARZĘDZIA Abonament Profesjonalny to rozwiązanie dla tych wszystkich, którzy na inwestowanie

Bardziej szczegółowo

Giełda : podstawy inwestowania / Adam Zaremba. wyd. 3. Gliwice, cop Spis treści

Giełda : podstawy inwestowania / Adam Zaremba. wyd. 3. Gliwice, cop Spis treści Giełda : podstawy inwestowania / Adam Zaremba. wyd. 3. Gliwice, cop. 2014 Spis treści Wprowadzenie 9 Część I. Zanim zaczniesz inwestować... Rozdział 1. Jak wybrać dom maklerski? 13 Na co zwracać uwagę?

Bardziej szczegółowo

3. Modele tendencji czasowej w prognozowaniu

3. Modele tendencji czasowej w prognozowaniu II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania Zastosowanie sztucznej inteligencji w testowaniu oprogramowania Problem NP Problem NP (niedeterministycznie wielomianowy, ang. nondeterministic polynomial) to problem decyzyjny, dla którego rozwiązanie

Bardziej szczegółowo

Strategia inwestycyjna oparta na korelacji w szeregach czasowych

Strategia inwestycyjna oparta na korelacji w szeregach czasowych Handel algorytmiczny Strategia inwestycyjna oparta na korelacji w szeregach czasowych Antoni Wiliński 2018 1 Strategia inwestycyjna - definicja Strategia to, najczęściej, zweryfikowany empirycznie (indukcjonistycznie)

Bardziej szczegółowo

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej Adam Żychowski Definicja problemu Każdy z obiektów może należeć do więcej niż jednej kategorii. Alternatywna definicja Zastosowania

Bardziej szczegółowo

Instrumenty rynku akcji

Instrumenty rynku akcji Instrumenty rynku akcji Rynek akcji w relacji do PK Źródło: ank Światowy: Kapitalizacja w relacji do PK nna Chmielewska, SGH, 2016 1 Inwestorzy indywidualni na GPW Ok 13% obrotu na rynku podstawowym (w

Bardziej szczegółowo

TYPY MODELOWYCH STRATEGII INWESTYCYJNYCH

TYPY MODELOWYCH STRATEGII INWESTYCYJNYCH ZAŁĄCZNIK NR 1 DO REGULAMINU TYPY MODELOWYCH STRATEGII INWESTYCYJNYCH W ramach Zarządzania, Towarzystwo oferuje następujące Modelowe Strategie Inwestycyjne: 1. Strategia Obligacji: Cel inwestycyjny: celem

Bardziej szczegółowo

Asset Management w Domu Maklerskim DIF Broker S.A.

Asset Management w Domu Maklerskim DIF Broker S.A. Asset Management w Domu Maklerskim DIF Broker S.A. Dla naszych Klientów prowadzimy unikalne portfele oraz strategie inwestycyjne. Strategie dostępne są dla portfeli od 50 000 USD, natomiast portfel inwestycyjny,

Bardziej szczegółowo

DRZEWA REGRESYJNE I LASY LOSOWE JAKO

DRZEWA REGRESYJNE I LASY LOSOWE JAKO DRZEWA REGRESYJNE I LASY LOSOWE JAKO NARZĘDZIA PREDYKCJI SZEREGÓW CZASOWYCH Z WAHANIAMI SEZONOWYMI Grzegorz Dudek Instytut Informatyki Wydział Elektryczny Politechnika Częstochowska www.gdudek.el.pcz.pl

Bardziej szczegółowo

Interwały. www.efixpolska.com

Interwały. www.efixpolska.com Interwały Dobór odpowiednich ram czasowych na których inwestor zamierza dokonywać transakcji jest podstawowym elementem strategii inwestycyjnej. W żargonie traderów sposób przedstawienia zmian ceny a w

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD

Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD Podstawy inwestowania na rynku Forex, rynku towarowym oraz Poradnik Inwestora Numer 15 Admiral Markets Sp. z o.o. ul. Aleje Jerozolimskie 133 lok.34 02-304 Warszawa e-mail: Info@admiralmarkets.pl Tel.

Bardziej szczegółowo

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska Anna Stankiewicz Izabela Słomska Wstęp- statystyka w politologii Rzadkie stosowanie narzędzi statystycznych Pisma Karla Poppera

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Algorytmy klasyfikacji

Algorytmy klasyfikacji Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe

Bardziej szczegółowo

Inne kryteria tworzenia portfela. Inne kryteria tworzenia portfela. Poziom bezpieczeństwa. Analiza i Zarządzanie Portfelem cz. 3. Dr Katarzyna Kuziak

Inne kryteria tworzenia portfela. Inne kryteria tworzenia portfela. Poziom bezpieczeństwa. Analiza i Zarządzanie Portfelem cz. 3. Dr Katarzyna Kuziak Inne kryteria tworzenia portfela Analiza i Zarządzanie Portfelem cz. 3 Dr Katarzyna Kuziak. Minimalizacja ryzyka przy zadanym dochodzie Portfel efektywny w rozumieniu Markowitza odchylenie standardowe

Bardziej szczegółowo

Zarządzanie ryzykiem. Opracował: Dr inŝ. Tomasz Zieliński

Zarządzanie ryzykiem. Opracował: Dr inŝ. Tomasz Zieliński Zarządzanie ryzykiem Opracował: Dr inŝ. Tomasz Zieliński I. OGÓLNE INFORMACJE O PRZEDMIOCIE Cel przedmiotu: Celem przedmiotu jest zaprezentowanie studentom podstawowych pojęć z zakresu ryzyka w działalności

Bardziej szczegółowo

Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD

Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD Podstawy inwestowania na rynku Forex, rynku towarowym oraz Poradnik Inwestora Numer 1 Admiral Markets Sp. z o.o. ul. Aleje Jerozolimskie 133 lok.34 02-304 Warszawa e-mail: Info@admiralmarkets.pl Tel. +48

Bardziej szczegółowo

Ekonometryczne modele nieliniowe

Ekonometryczne modele nieliniowe Ekonometryczne modele nieliniowe Wykład 10 Modele przełącznikowe Markowa Literatura P.H.Franses, D. van Dijk (2000) Non-linear time series models in empirical finance, Cambridge University Press. R. Breuning,

Bardziej szczegółowo

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling Summary in Polish Fatimah Mohammed Furaiji Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling Zastosowanie symulacji wieloagentowej w modelowaniu zachowania konsumentów Streszczenie

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Regresja i Korelacja

Regresja i Korelacja Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane

Bardziej szczegółowo

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018 Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy

Bardziej szczegółowo

Prognozowanie na podstawie modelu ekonometrycznego

Prognozowanie na podstawie modelu ekonometrycznego Prognozowanie na podstawie modelu ekonometrycznego Przykład. Firma usługowa świadcząca usługi doradcze w ostatnich kwartałach (t) odnotowała wynik finansowy (yt - tys. zł), obsługując liczbę klientów (x1t)

Bardziej szczegółowo

Elementy inteligencji obliczeniowej

Elementy inteligencji obliczeniowej Elementy inteligencji obliczeniowej Paweł Liskowski Institute of Computing Science, Poznań University of Technology 9 October 2018 1 / 19 Perceptron Perceptron (Rosenblatt, 1957) to najprostsza forma sztucznego

Bardziej szczegółowo

Załącznik do Dokumentu zawierającego kluczowe informacje Ubezpieczeniowe fundusze kapitałowe Ubezpieczenie Inwestycyjne Bonus VIP

Załącznik do Dokumentu zawierającego kluczowe informacje Ubezpieczeniowe fundusze kapitałowe Ubezpieczenie Inwestycyjne Bonus VIP Załącznik do Dokumentu zawierającego kluczowe informacje Ubezpieczeniowe fundusze kapitałowe Ubezpieczenie Inwestycyjne Bonus VIP Ten dokument dotyczy ubezpieczeniowych funduszy kapitałowych dostępnych

Bardziej szczegółowo

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę Norbert Jankowski Ontogeniczne sieci neuronowe O sieciach zmieniających swoją strukturę Warszawa 2003 Opracowanie książki było wspierane stypendium Uniwersytetu Mikołaja Kopernika Spis treści Wprowadzenie

Bardziej szczegółowo

System transakcyjny oparty na wskaźnikach technicznych

System transakcyjny oparty na wskaźnikach technicznych Druga połowa ubiegłego stulecia upłynęła pod znakiem dynamicznego rozwoju rynków finansowych oraz postępującej informatyzacji społeczeństwa w skali globalnej. W tym okresie, znacząco wrosła liczba narzędzi

Bardziej szczegółowo

Optymalizacja systemów

Optymalizacja systemów Optymalizacja systemów Laboratorium - problem detekcji twarzy autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, P. Klukowski Cel zadania Celem zadania jest zapoznanie się z gradientowymi algorytmami optymalizacji

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD

Podstawy inwestowania na rynku Forex, rynku towarowym oraz kontraktów CFD Podstawy inwestowania na rynku Forex, rynku towarowym oraz Poradnik Inwestora Numer 11 Admiral Markets Sp. z o.o. ul. Aleje Jerozolimskie 133 lok.34 02-304 Warszawa e-mail: Info@admiralmarkets.pl Tel.

Bardziej szczegółowo

Jakość uczenia i generalizacja

Jakość uczenia i generalizacja Jakość uczenia i generalizacja Dokładność uczenia Jest koncepcją miary w jakim stopniu nasza sieć nauczyła się rozwiązywać określone zadanie Dokładność mówi na ile nauczyliśmy się rozwiązywać zadania które

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

WYKORZYSTANIE SZTUCZNYCH SIECI NEURONOWYCH W PROGNOZOWANIU

WYKORZYSTANIE SZTUCZNYCH SIECI NEURONOWYCH W PROGNOZOWANIU WYKORZYSTANIE SZTUCZNYCH SIECI NEURONOWYCH W PROGNOZOWANIU THE USE OF ARTIFICIAL NEURAL NETWORKS IN FORECASTING Konrad BAJDA, Sebastian PIRÓG Resume Artykuł opisuje wykorzystanie sztucznych sieci neuronowych

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Portfel Globalnego Inwestowania

Portfel Globalnego Inwestowania Portfel Globalnego Inwestowania CEL INWESTYCYJNY Możliwości wzrostu kapitału z giełd globalnych przy stosowaniu strategii minimalizacji ryzyka. W SKRÓCIE Na bieżąco dostosowujemy inwestycję złożoną z 4

Bardziej szczegółowo

ROC Rate of Charge. gdzie ROC wskaźnik szybkości zmiany w okresie n, x n - cena akcji na n-tej sesji,

ROC Rate of Charge. gdzie ROC wskaźnik szybkości zmiany w okresie n, x n - cena akcji na n-tej sesji, ROC Rate of Charge Analityk techniczny, który w swej analizie opierałby się wyłącznie na wykresach uzyskiwałby obraz możliwości inwestycyjnych obarczony sporym ryzykiem. Wnioskowanie z wykresów bazuje

Bardziej szczegółowo

Własności estymatorów regresji porządkowej z karą LASSO

Własności estymatorów regresji porządkowej z karą LASSO Własności estymatorów regresji porządkowej z karą LASSO Uniwersytet Mikołaja Kopernika w Toruniu Uniwersytet Warszawski Badania sfinansowane ze środków Narodowego Centrum Nauki przyznanych w ramach finansowania

Bardziej szczegółowo

Zmienność. Co z niej wynika?

Zmienność. Co z niej wynika? Zmienność. Co z niej wynika? Dla inwestora bardzo ważnym aspektem systemu inwestycyjnego jest moment wejścia na rynek (moment dokonania transakcji) oraz moment wyjścia z rynku (moment zamknięcia pozycji).

Bardziej szczegółowo

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych

Bardziej szczegółowo

Sterowanie wielkością zamówienia w Excelu - cz. 3

Sterowanie wielkością zamówienia w Excelu - cz. 3 Sterowanie wielkością zamówienia w Excelu - cz. 3 21.06.2005 r. 4. Planowanie eksperymentów symulacyjnych Podczas tego etapu ważne jest określenie typu rozkładu badanej charakterystyki. Dzięki tej informacji

Bardziej szczegółowo

Zarządzanie Kapitałem. Paweł Śliwa pawel.sliwa@xtb.pl

Zarządzanie Kapitałem. Paweł Śliwa pawel.sliwa@xtb.pl Zarządzanie Kapitałem Paweł Śliwa pawel.sliwa@xtb.pl 1 ZK a Proces Zarabiania Zarządzanie Kapitałem 30% SYSTEM 10% PSYCHOLOGIA 60% To wszystko składa się na skuteczne transakcje. 2 Zarządzanie Kapitałem

Bardziej szczegółowo

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych

Bardziej szczegółowo