Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań



Podobne dokumenty
Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Algorytm Genetyczny. zastosowanie do procesów rozmieszczenia stacji raportujących w sieciach komórkowych

Algorytmy genetyczne

Programowanie genetyczne, gra SNAKE

Algorytm genetyczny (genetic algorithm)-

Systemy uczące się wykład 1

Algorytm hybrydowy dla alokacji portfela inwestycyjnego przy ograniczonych zasobach

Gospodarcze zastosowania algorytmów genetycznych

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Strategie ewolucyjne (ang. evolu4on strategies)

Algorytmy ewolucyjne NAZEWNICTWO

LABORATORIUM 4: Algorytmy ewolucyjne cz. 2 wpływ operatorów krzyżowania i mutacji na skuteczność poszukiwań AE

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Aproksymacja funkcji a regresja symboliczna

Algorytmy ewolucyjne 1

Dobór parametrów algorytmu ewolucyjnego

ALGORYTM RANDOM FOREST

KARTA MODUŁU KSZTAŁCENIA

Wykorzystanie sztucznej inteligencji do prognozowania notowań Warszawskiej Giełdy Papierów Wartościowych. opiekun: dr A. Wojna.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Algorytmy ewolucyjne - algorytmy genetyczne. I. Karcz-Dulęba

LABORATORIUM 7: Problem komiwojażera (TSP) cz. 2

PLAN WYKŁADU OPTYMALIZACJA GLOBALNA OPERATOR KRZYŻOWANIA ETAPY KRZYŻOWANIA

ALGORYTMY GENETYCZNE (wykład + ćwiczenia)

Algorytmy genetyczne

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Metody selekcji cech

Pattern Classification

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

kierunkowy (podstawowy / kierunkowy / inny HES) nieobowiązkowy (obowiązkowy / nieobowiązkowy) polski drugi semestr letni (semestr zimowy / letni)

Generowanie i optymalizacja harmonogramu za pomoca

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

Analiza danych. TEMATYKA PRZEDMIOTU

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

PRZEWODNIK PO PRZEDMIOCIE

Elementy modelowania matematycznego

Równoważność algorytmów optymalizacji

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Algorytmy genetyczne w interpolacji wielomianowej

Systemy uczące się Lab 4

PRZEWODNIK PO PRZEDMIOCIE

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Transformacja wiedzy w budowie i eksploatacji maszyn

WAE Jarosław Arabas Pełny schemat algorytmu ewolucyjnego

LABORATORIUM 2: Wpływ wielkości populacji i liczby pokoleń na skuteczność poszukiwań AE. opracował: dr inż. Witold Beluch

Odkrywanie algorytmów kwantowych za pomocą programowania genetycznego

PRZEWODNIK PO PRZEDMIOCIE

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Tomasz Pawlak. Zastosowania Metod Inteligencji Obliczeniowej

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

IMPLIKACJE ZASTOSOWANIA KODOWANIA OPARTEGO NA LICZBACH CAŁKOWITYCH W ALGORYTMIE GENETYCZNYM

Agnieszka Nowak Brzezińska Wykład III

Prof. Stanisław Jankowski

Algorytmy klasyfikacji

Strefa pokrycia radiowego wokół stacji bazowych. Zasięg stacji bazowych Zazębianie się komórek

Opis efektów kształcenia dla modułu zajęć

Podstawy Sztucznej Inteligencji (PSZT)

Heurystyki. Strategie poszukiwań

Agnieszka Nowak Brzezińska Wykład III

Optymalizacja optymalizacji

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Programowanie genetyczne - gra SNAKE

Obliczenia równoległe i rozproszone. Praca zbiorowa pod redakcją Andrzeja Karbowskiego i Ewy Niewiadomskiej-Szynkiewicz

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

Układy VLSI Bramki 1.0

Algorytmy genetyczne w optymalizacji

Ćwiczenie 12. Metody eksploracji danych

Politechnika Wrocławska Wydział Elektroniki INFORMATYKA SYSTEMÓW AUTONOMICZNYCH. Heurystyka, co to jest, potencjalne zastosowania

Instrukcja użytkownika Advanced Orders

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

Algorytmy ewolucyjne

ALHE Z11 Jarosław Arabas wykład 11

Text mining w programie RapidMiner Michał Bereta

Zadania laboratoryjne i projektowe - wersja β

Wprowadzenie do rynków walutowych

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Agnieszka Nowak Brzezińska

Metody Sztucznej Inteligencji Methods of Artificial Intelligence. Elektrotechnika II stopień ogólno akademicki. niestacjonarne. przedmiot kierunkowy

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Proces badawczy schemat i zasady realizacji

Elementy inteligencji obliczeniowej

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009

Automatyczne wyodrębnianie reguł

Algorytmy wspomagania decyzji Czyli co i jak andrzej.rusiecki.staff.iiar.pwr.wroc.pl s.

SZTUCZNA INTELIGENCJA

ANALITYKA GOSPODARCZA, STUDIA MAGISTERSKIE WIEDZA

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Zapisywanie algorytmów w języku programowania

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

LABORATORIUM 3: Wpływ operatorów krzyżowania na skuteczność poszukiwań AE

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

LABORATORIUM 5: Wpływ reprodukcji na skuteczność poszukiwań AE. opracował: dr inż. Witold Beluch

Michał Olejnik. 22 grudnia 2009

Algorytmy wspomagania decyzji Czyli co i jak andrzej.rusiecki.staff.iiar.pwr.wroc.pl s. 230/C-3

Transkrypt:

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań Anna Manerowska, Michal Kozakiewicz 2.12.2009 1 Wstęp Jako projekt na przedmiot MEUM (Metody Ewolucyjne Uczenia Maszyn) dostaliśmy za zadanie stworzyć klasyfikator rozwijany za pomocą algorytmu ewolucyjnego, którego ukierunkowanie zmieniałoby się podczas uruchomienia. EA zostanie użyty do zmian drzew decyzyjnych. Zmienne ukierunkowanie rozwoju drzew uzyskamy przez modyfikacje funkcji celu, oceniającej zarówno efektywność klasyfikacji jak również strukturę drzewa. 2 Opis problemu klasyfikacji Zadaniem klasyfikacji będzie zakwalifikowanie instrumentu giełdowego do jednej z trzech grup: [kup, sprzedaj, nie ruszaj]. kup - algorytm uważa, że cena danego instrumentu wzrośnie sprzedaj - algorytm uważa, że cena danego instrumentu zmaleje nie ruszaj - algorytm nie potrafi zdecydować 3 Dane Klasyfikację będziemy przeprowadzać na cenach archiwalnych wybranych instrumentów. W zależności od analizowanego okresu czasu, wymagany będzie inny typ danych: Intra-day trading, High Frequency trading - czyli kupno i sprzedaż instrumentów wielokrotnie w ciągu jednego dnia, nie pozostawianie otwartych pozycji na noc. Wymaga danych tick-to-tick czyli każdej zmiany ceny instrumentu w ciągu dnia; Dane tick-to-tick są z reguły dostępne za opłatą, zajmują też olbrzymią ilość miejsca; Daily trading - czyli transakcje na przestrzeni dni/tygodni; Nie potrzebujemy danych tick-to-tick, wystarczą parametry takie jak: cena otwarcia cena zamknięcia cena maksymalna/minimalna z danego dnia ilość transakcji (volume) Dane o tej częstotliwości można zdobyć np z Yahoo Finance[12]: dla okresów o dowolnej, mającej znaczenie dla algorytmu, długości. 1

Long term trading - zakłada długotrwałe inwestycje, tą formą nie będziemy się zajmować Analiza rynków znacząco różni się w zależności od częstotliwości transakcji, którą rozpatrujemy[6]. Jeżeli nie uda się zdobyć wystarczającej ilości danych intra-day, zajmiemy się klasyfikacją danych dziennych. Wektorem wejściowym będzie ciąg cen (oraz innych dostępnych parametrów) z pewnego okresu czasu (zależnie od wybranej częstotliwości), również dla instrumentów innych niż analizowany. 4 Narzędzia realizacji Podczas pracy nad algorytmem, prototyp powstanie w środowisku R, natomiast wersja ostateczna wykonana będzie w Javie, przy użyciu następujących bibliotek: WEKA [10] - biblioteka do eksploracji danych, zawiera implementację różnych algorytmów budowy drzew decyzyjnych (m.in. ID3) Watchmaker [11] - biblioteka do metod ewolucyjnych Wybór języka kompilowanego, jest uzasadniony dużymi wymaganiami obliczeniowymi metod ewolucyjnych; Javy, ze względu na dostępność bibliotek i łatwość programowania. 5 Opis algorytmu Prototyp algorytmu wygląda następująco: zaczynamy od populacji bazowej drzew wygenerowanych algorytmem ID3, których struktura i parametry są zmienione losowo Rysunek 1: Mutacja warunku osobniki dokonują klasyfikacji oceniamy sprawność osobników na podstawie pewnej funkcji celu F wybieramy x osobników do mutacji, metodą ruletkową z pośród nowej populacji (powiększonej o x) usuwamy x osobników o najniższej sprawności proces powtarzamy przez g generacji Operator mutacji dla drzew decyzyjnych może zmieniać wartości parametrów (Rys. 2) oraz warunki podziału (Rys. 1) węzła drzewa. Funkcja celu F będzie zmieniać się w trakcie działania algorytmu. Jako podstawę sprawności wygenerowanego osobnika uznamy ilość poprawnych klasyfikacji. Dodatkowymi warunkami, aktywowanymi po pewnej (jeszcze nie ustalonej) liczbie generacji, bądź przy spełnieniu określonych wymagań (np. osobnik klasyfikuje poprawnie częściej niż 50% ), będą: ocena potencjalnej wielkości zysku, obliczona na podstawie dalszego wzrostu bądź spadku ceny instrumentu 2

7 Możliwe rozszerzenia Możliwe są rozszerzenia do algorytmu bazowego (o różnej złożoności) np: informacja o pewności z jaką dokonana była klasyfikacja Rysunek 2: Mutacja parametru ocena struktury drzewa decyzyjnego, np kara za wysokość możliwość oceny na podstawie historii jeżeli osobnik przeżył do następnych generacji 6 Oczekiwania Podstawowym pytaniem jest, czy algorytm tego typu może wygenerować zysk. Nawet jeżeli to się nie uda, chcielibyśmy zaobserwować czy algorytm wykryje korelację między różnymi instrumentami (np. akcjami firm działających w jednej branży [9]). Jakie parametry będą używane do klasyfikacji, np czy ilość transakcji będzie miała znaczenie? Czy model cen wygenerowany przez algorytm będzie miał cechy wspólne z innymi, znanymi modelami rynków[8]? Interesującym jest również jak kara za wysokość drzewa wpłynie na zachowanie algorytmu - dążenie do upraszczania drzew decyzyjnych może prowadzić np do zwiększenia odporności na zakłócenia czy zwiększania zdolności algorytmu do generalizacji. informacja o przewidywanej długości trendu instrumentu (np dla [kup] chcielibyśmy wiedzieć jak bardzo cena może jeszcze urosnąć) propozycja zleceń na innych instrumentach zmniejszających ryzyko danej inwestycji (Ang. Hedge) zastosowanie algorytmu w czasie rzeczywistym na aktualnych cenach obowiązujących na giełdzie zastosowanie predefiniowanych (wybranych przez użytkownika) węzłów drzew, zwiększających determinizm algorytmu, parametry których mogły by być rozwijane drogą ewolucji 8 Podsumowanie Algorytm ewolucyjny jest nieintuicyjny podczas gdy umysł ludzki poszukuje rozwiązań na utartych ścieżkach, ciężko mu wybić się ze schematu. Najczęściej sprawdza jedynie proste symetryczne konstrukcje. Algorytm ewolucyjny jest wolny od tych ograniczeń. Swobodnie sprawdza wszystkie poprawne rozwiązania, poszukując najlepszego. Istotną zaletą ewolucyjnego podejścia do modelowania jest również znaczne ograniczenie wiedzy a priori. W ekonometrii to analityk decyduje o formie funkcyjnej modelu, sugerując się testami statystycznymi, wiedzą ekonomiczną na 3

temat modelowanego zjawiska oraz własnym doświadczeniem. W podejściu ewolucyjnym to ewolucja steruje wyborem najbardziej odpowiedniej funkcji. Proces modelowania jest więc w pełni sterowany danymi, bez wiedzy z zewnątrz. Wykonanie projektu pozwoli nam, w jakimś stopniu na ocenę wartości algorytmu ewolucyjnego w modelowaniu ekonomicznym. 4

Literatura [1] D. E. Goldberg: Algorytmy genetyczne i ich zastosowania. Warszawa: WNT, 1998. [2] Paweł Cichosz: Systemy uczące się, WNT, Warszawa 2000 [3] Arabas J., Wykłady z algorytmów ewolucyjnych, WNT, Warszawa 2001 [4] Kwaśnicka H.: Obliczenia ewolucyjne w sztucznej inteligencji, Oficyna Wydawnicza PWr., Wrocław, 1999 [5] Michalewicz Z.: Algorytmy genetyczne + struktury danych = programy ewolucyjne, WNT, Warszawa, 1996 [6] blog: http://tr8dr.wordpress.com/ [7] blog: http://www.puppetmastertrading.com/blog/ [8] blog: http://www.maxdama.com/ [9] Carol Alexander: Market Models: A Guide to Financial Data Analysis, Wiley, 2001 [10] http://www.cs.waikato.ac.nz/ml/weka/ [11] http://watchmaker.uncommons.org/ [12] http://finance.yahoo.com/ 5