ADAPTACYJNE ALGORYTMY DETEKCJI

Transkrypt

1 AKADEMIA GÓRNICZO-HUTNICZA IM. ST. STASZICA W KRAKOWIE WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI I ELEKTRONIKI ROZPRAWA DOKTORSKA: ADAPTACYJNE ALGORYTMY DETEKCJI ZDARZEŃ W SZEREGACH CZASOWYCH AUTOR MGR INŻ. TOMASZ PEŁECH-PILICHOWSKI PROMOTOR PROF. DR HAB. INŻ. JAN TADEUSZ DUDA PRACA POWSTAŁA W RAMACH GRANTU PROMOTORSKIEGO MINISTERSTWA NAUKI I SZKOLNICTWA WYŻSZEGO NR N6 9 3/86. Kraków 9

2 Promotorowi, Panu prof. dr hab. inż. Janowi T. Dudzie, serdecznie dziękuję za cenne uwagi, udzieloną pomoc oraz poświęcony mi czas w trakcie realizacji niniejszej rozprawy.

3 SPIS TREŚCI ROZDZIAŁ WSTĘP... 5 ROZDZIAŁ PROBLEMY DETEKCJI ZDARZEŃ W SZEREGACH CZASOWYCH.... Definicja zdarzeń analizowanych w rozprawie.... Metody przetwarzania szeregów czasowych..... Predykcja szeregów czasowych..... Problemy monitorowania szeregów czasowych i generowania sygnałów diagnostycznych Detekcja zdarzeń Problemy detekcji zdarzeń w szeregach czasowych Metody detekcji i ich zastosowania przegląd literatury....3 Sztuczne systemy immunologiczne Naturalne układy odpornościowe Systemy immunologiczne w informatyce Koncepcje badawcze i tezy rozprawy Podsumowanie literatury pod kątem potrzeb badawczych w odniesieniu do specyfiki zadania Specyfika zadania analizy szeregów finansowych Tezy rozprawy... 3 ROZDZIAŁ 3 CHARAKTERYSTYKA BADANYCH SZEREGÓW I ZASTOSOWANE NARZĘDZIA FORMALNE PREDYKCJI Źródła danych i metody ich pozyskiwania Przygotowanie danych Charakterystyka jakościowa badanych szeregów Prognozowanie matematyczne badanych szeregów finansowych Metodyka analizy i wstępne przetwarzanie Analiza harmoniczna szeregów finansowych Analiza korelacyjna i modele wieloczynnikowe Algorytmiczne nadzorowanie stosowalności predyktorów wieloczynnikowych w prognozowaniu średnioterminowym Predykcja średnioterminowa metodą ekstrapolacji lokalnego trendu liniowego i jej algorytmiczne nadzorowanie ROZDZIAŁ 4 ADAPTACYJNA DETEKCJA ZDARZEŃ Z WYKORZYSTANIEM PARADYGMATU IMMUNOLOGICZNEGO Idea ogólna Wykorzystanie paradygmatu immunologicznego w zadaniu detekcji zdarzeń Oryginalna idea algorytmu detekcji Konstrukcja limfocytów Wstępna detekcja zdarzeń Predykcja krótkoterminowa Proste testy statystyczne Generowanie sygnałów diagnostycznych Typy sygnałów diagnostycznych oraz ich transformacje Zewnętrzne sygnały diagnostyczne i transformacje globalne Źródła zewnętrznych sygnałów diagnostycznych Filtracja dolnoprzepustowa jako źródło zewnętrznych sygnałów diagnostycznych Wewnętrzne sygnały diagnostyczne Zbiór analizowanych sygnałów a dywersyfikacja detektorów

4 4.5 Odległości jako klasyczne miary podobieństwa szeregów Proponowane nowe metody badania podobieństwa szeregów Miary odległości jako kryteria detekcji Etapy doboru i tryb stosowania detektorów zdarzeń Eliminacja wpływu zmiennych opóźnień w ciągach przyczynowo-skutkowych zdarzeń Proponowane miary odległości szeregów Odległość Fouriera (miara S F ) Podobieństwo spektralne determinizowane (Sd) Elastyczna miara podobieństwa wzorców (miara typu W) Miara podobieństwa zunifikowanych wzorców (U) Podobieństwo zdarzeniowe (Z) Badanie skuteczności proponowanych miar odległości Badanie wpływu transformacji unifikujących na skuteczność detekcji zdarzeń Badanie skuteczności detekcji zdarzeń o różnej konfiguracji przy zastosowaniu wtórnych transformacji sygnałów komórki Efektywność miary odległości typu S F Efektywność miary odległości typu Sd Efektywność miary odległości typu W Efektywność miary odległości typu U Efektywność miary odległości typu Z Podsumowanie analizy zaproponowanych miar odległości Normalizacja miary odległości: wskaźnik odległości i wskaźniki podobieństwa zdarzeń Badania efektywności proponowanego algorytmu detekcji zdarzeń Schemat, zasada działania, parametry początkowe oraz zmienne Sygnał diagnostyczny wykorzystany do badań symulacyjnych Wyniki pomiaru efektywności detekcji zmian typu BK Badanie efektywności detekcji zdarzeń dla danych empirycznych Dane wejściowe Parametry algorytmu Analiza efektywności detekcji Wyniki obliczeń...34 ROZDZIAŁ 5 WNIOSKI KOŃCOWE I KIERUNKI DALSZYCH BADAŃ Podsumowanie badań i wnioski Dalsze kierunki badań... 4 ZAŁĄCZNIK Opis szeregów oraz ich charakterystyka statystyczna ZAŁĄCZNIK Formalne właściwości prognozowania matematycznego z wykorzystaniem liniowych modeli regresyjnych Z. Podstawy formalne analizy regresji...48 Z. Problemy doboru wejść objaśniających, ortogonalizacja przestrzeni wejść...54 Z.3 Problem niejednorodności szeregów w analizie regresji...57 Z.3. Wpływ trendu zmiennych objaśniających na estymaty współczynników modelu regresyjnego...57 Z.3. Wpływ dynamiki zmiennych objaśniających na estymaty współczynników modelu regresyjnego...6 Z.4 Modele regresyjne dla przyrostów zmiennych...65 ZAŁĄCZNIK 3 Przykładowe analizy korelacyjne sygnałów diagnostycznych ZAŁĄCZNIK 4 Wyniki badań symulacyjnych oraz obliczeń numerycznych działania algorytmu detekcji zdarzeń ZAŁĄCZNIK 5 Charakterystyka środowiska programistycznego oraz efektywność czasowa algorytmu... 3 SPIS RYSUNKÓW SPIS TABEL WYKAZ WAŻNIEJSZYCH OZNACZEŃ... 4 BIBLIOGRAFIA

5 Rozdział Wstęp W zadaniach zarządzania, a także sterowania nadrzędnego procesami, kluczowe znaczenie ma prawidłowe podejmowanie decyzji eksperckich (operatorskich). Ich skuteczność, szczególnie w sytuacjach o charakterze nietypowym, zależy w istotnym stopniu od dostępności informacji i jej sprawnej selekcji, w tym sygnalizowania zdarzeń wymagających szczególnej koncentracji uwagi decydenta oraz jej ukierunkowania na identyfikację źródeł zagrożeń, zainicjowania procedur diagnostycznych lub podjęcia decyzji w trybie pilnym. Problem wczesnej sygnalizacji takich zdarzeń ma bezpośredni wpływ na jakość prowadzonego przetwarzania danych. Związany jest on z minimalizowaniem opóźnienia detekcji bądź, co ma szczególne znaczenie dla uzyskiwania wiarygodnych prognoz krótko i średnioterminowych, szybką estymacją parametrów statystycznych szeregu. Powszechna dostępność systemów komputerowych o dużych możliwościach obliczeniowych i rozwijane intensywnie w ostatnich latach technologie informatyczne stwarzają nowe możliwości pozyskiwania, gromadzenia i udostępniania olbrzymich zasobów informacji, daleko przekraczających zdolności percepcyjne wykorzystujących je ludzi. Stwarza to z jednej strony szanse, a z drugiej konieczność algorytmizacji selekcji informacji usprawniających podejmowanie decyzji eksperckich, w tym detekcji zdarzeń polegających na nietypowych przebiegach rejestrowanych szeregów czasowych. Zdarzenia takie mogą mieć charakter zarówno gwałtownych zmian poziomu sygnału, występowania nietypowych wartości (dane odstające), nietypowych sekwencji, jak i tzw. zdarzeń cichych, będących wczesnymi, trudno wykrywalnymi zwiastunami długoterminowych zmian właściwości statystycznych szeregu. 5

6 Zagadnienia konstrukcji algorytmów wykrywania zmian właściwości statystycznych szeregów czasowych są ważnym i szybko rozwijającym się obszarem badawczym informatyki, w którym wykorzystuje się zarówno klasyczne techniki analizy sygnałów (analizy statystyczne, częstotliwościowe), jak i podejścia oparte na metodach rozpoznawania obrazów, inteligencji obliczeniowej czy analizy wielowymiarowej szeregów czasowych. Wyniki takiego przetwarzania wykorzystuje się dla potrzeb prognozowania bądź wykrywania anomalii (w tym na potrzeby retrospektywnych analiz właściwości szeregów). Dedykowane algorytmy znajdują rozległe zastosowania w technice (diagnostyka techniczna [9], [88], [4], [43], medyczna [48], [74], rozpoznawanie obrazów [86], [79], obronność, itp.). Zaawansowane i wysoce efektywne algorytmy detekcji zdarzeń są rzadziej publikowane [9], [6], jakkolwiek niewątpliwie są one przedmiotem badań w wielu ośrodkach naukowych. Techniki te są bowiem wykorzystywane między innymi w działalności wywiadowczej i z pewnością osiągnięto tu bardzo wysoką skuteczność w sensie wykrywalności zmian parametrów sygnałów na tle silnych zakłóceń. Niniejsza rozprawa podejmuje problem usprawniania predykcji rozległych zbiorów szeregów czasowych, w szczególności finansowych (takich jak. notowania cen surowców, wskaźników giełdowych, akcji spółek giełdowych itp.), poprzez algorytmizację wykrywania zdarzeń, w dostosowaniu do specyficznych możliwości i potrzeb zarządzania, które jest bardzo obiecującym obszarem zastosowań tych metod [3], [69]. Dostępne komercyjnie komputerowe systemy wspomagania zarządzania koncentrują się na wykorzystaniu danych rejestrowanych w przedsiębiorstwie, ograniczając się do stosunkowo prostych metod ich przetwarzania. Tymczasem specyfiką problemów decyzyjnych zarządzania jest potrzeba wykorzystania rozległych zasobów danych o otoczeniu przedsiębiorstwa, które m.in. mogą być pozyskiwane dynamicznie poprzez Internet (należą do nich wspomniane wyżej szeregi finansowe). Jednak wobec nadmiaru informacji i specyfiki Internetu, w zdecydowanym stopniu rośnie znaczenie oceny wartości (przydatności) informacji oraz automatyzacji rejestracji i analizy. W literaturze światowej znaleźć można wiele doniesień o zastosowaniach zaawansowanych technik przetwarzania w zarządzaniu. Ten obszar informatyki, określany mianem Business Intelligence, jest reprezentowany na licznych konferencjach, tak o tematyce informatycznej, jak i związanej z zarządzaniem. Dużym zainteresowaniem cieszą się analizy szeregów finansowych, głównie giełdowych. Np. systemy MRP, ERP [7]

7 Istnieją liczne portale internetowe 3 udostępniające wyniki analiz sytuacji na giełdach w formie zestawień, oszacowań ilościowych i jakościowych tendencji notowań oraz ich prognoz. Z drugiej strony, istnieje możliwość wykorzystania specjalistycznych platform przeznaczonych do zaawansowanej analizy oraz eksploracji danych ekonomicznych, marketingowych itp. 4 Jednak narzędzia te bądź nie oferują możliwości szybkiego wykrywania zdarzeń, bądź wykorzystują głównie wiedzę ekspercką i wymagają specjalistycznych umiejętności użytkownika. Celem niniejszej rozprawy jest opracowanie nowych algorytmów detekcji zdarzeń, ukierunkowanych na usprawnienie krótko i średnioterminowej predykcji niestacjonarnych szeregów czasowych. Podjęty problem naukowy polega na poszukiwaniu możliwości takich usprawnień, poprzez algorytmiczną analizę rozległych zasobów danych, ukierunkowaną na wykrywanie zdarzeń krótkoterminowych, poprzedzających istotne, długoterminowe zmiany właściwości statystycznych szeregów. Jako główną koncepcję badawczą przyjęto, że podstawą do usprawnienia prognoz może być wieloaspektowa analiza zdarzeń w otoczeniu badanego szeregu, zwiastujących zmiany jego trendu. Do detekcji takich zdarzeń i ich algorytmicznej interpretacji zaproponowano wykorzystanie paradygmatu immunologicznego, zgodnie z którym uzyskanie wysokiej wiarygodności detekcji zdarzeń istotnych w zmiennym otoczeniu o słabo zdeterminowanej strukturze i właściwościach można osiągnąć przez odwzorowanie działania niektórych mechanizmów naturalnych systemów immunologicznych. Idąc tą drogą, skonstruowano dwupoziomowy algorytm predykcji szeregów. Poziom pierwszy realizuje wieloaspektową analizę stacjonarności sygnałów diagnostycznych, opartą na komplementarnych miarach podobieństwa szeregów (z adaptacją strukturalną i parametryczną detektorów), a na poziomie drugim następuje adaptacja parametrów predyktora krótko i średnioterminowego w oparciu o informacje jakościowe o otoczeniu, uzyskane na poziomie pierwszym. Sformułowanie zasad implementacji paradygmatu immunologicznego dla omawianego tu zadania (w tym dobór odpowiednio różnorodnych sygnałów diagnostycznych), konstrukcja zestawu komplementarnych miar odległości szeregów oraz opracowanie i zbadanie zasad wykrywania zdarzeń tą metodą są najważniejszymi elementami oryginalnymi rozprawy. Z praktycznego punktu widzenia, istotną zaletą przyjętego podejścia jest możliwość uzyskania algorytmów, które będą miały stałą zdolność usprawniania zastosowanych technik (wraz z wydłużaniem okresu eksploatacji) oraz dostosowywania się do 3 Np Np. narzędzia do analizy oraz eksploracji danych (np. Statistica Data Miner, SPSS Clementine, SAS) oraz narzędzia bazodanowe (np. Microsoft SQL Server, Oracle). 7

8 zmiennych i nieograniczonych zasobów danych, np. pozyskiwanych przez Internet. Będą one mogły być implementowane jako autonomiczne moduły softwareowe prowadzące w pełni zalgorytmizowane analizy i produkujące ergonomiczne komunikaty o zjawiskach i procesach w otoczeniu, które wymagają wczesnej reakcji decydenta, w szczególności przedsiębiorcy. Realizacja przedstawionego wyżej celu pracy winna przyczynić się do ułatwienia dostępu szerszej rzeszy przedsiębiorców do zaawansowanych technik analizy szeregów finansowych, a przez to zmniejszenia ryzyka działalności gospodarczej (szczególnie małych i średnich przedsiębiorstw, które nie dysponują środkami na zlecanie specjalistycznych analiz). Niezależnie od tego, opracowane w ramach rozprawy techniki detekcji mogą być zastosowane do usprawnienia nadzorowania procesów produkcyjnych (w tym przypadku zadanie detekcji upraszcza się ze względu na zdeterminowane zasoby danych i mniejszy wpływ czynników losowych na rejestrowane dane procesowe). Praca składa się z 5. rozdziałów. Po wstępie, w rozdziale, sformułowano problemy detekcji zdarzeń oraz predykcji szeregów czasowych. Omówiono stan wiedzy dotyczący badanego obszaru informatyki, w szczególności stosowane podejścia ilościowe, a także jakościowe. Zaakcentowano problematykę wstępnego przetwarzania danych do dalszych analiz oraz agregacji informacji. Sprecyzowano także istotę paradygmatu immunologicznego w odniesieniu do zadania detekcji i klasyfikacji zdarzeń na tle jego wykorzystania w informatyce. Rozdział ten kończy podsumowanie literatury, prezentacja koncepcji badawczych oraz tezy pracy. W rozdziale 3 scharakteryzowano ogólnie szeregi finansowe wykorzystane w pracy, wraz z opisem problematyki ich pozyskiwania (pełne zestawienie wszystkich wykorzystywanych danych oraz ich charakterystyki statystyczne umieszczono w załączniku ). Omówiono pokrótce podstawy formalne predykcji niestacjonarnych szeregów czasowych, nawiązując do ich pełniejszej prezentacji, zamieszczonej w załączniku. Podkreślono rolę analizy harmonicznej oraz korelacyjnej w przesuwanych oknach. Rozważania te zilustrowano wynikami analiz korelacyjnych i wieloczynnikowej predykcji średniookresowej dla wybranych szeregów badanego środowiska. Następnie opisano problem algorytmicznego nadzorowania predykcji i eksplorowaną w pracy metodę predykcji średnioterminowej, opartą na ekstrapolacji lokalnego trendu liniowego z wykorzystaniem testów stosunku funkcji wiarygodności do wykrywania załamań trendu. W rozdziale 4 zdefiniowano oryginalną koncepcję immunopodobnego algorytmu detekcji zdarzeń, przeznaczonego do wspomagania prognoz średnioterminowych. 8

9 Scharakteryzowano podstawowe obiekty systemu oraz stosowane metody detekcji krótkoterminowych zmian, wraz z opisem uwarunkowań ich implementacji. Zaakcentowano rolę adaptacji strukturalnej środowiska w zwiększeniu skuteczności działania klasycznych rozwiązań. Zaproponowano nowe miary chwilowego podobieństwa szeregu, a następnie przeprowadzono obszerne analizy ich skuteczności na danych symulowanych oraz rzeczywistych (szczegółowe wyniki umieszczono w załączniku 4). Dalej, opisano problematykę doboru sygnału diagnostycznego. Rozdział kończy opis badań na danych rzeczywistych właściwości newralgicznego z punktu widzenia detekcji zdarzeń symptomatycznych elementu koncepcji, tj. algorytmu detekcji zdarzeń zwiastujących załamania trendu. W rozdziale 5 podsumowano przeprowadzone badania, sformułowano najważniejsze wnioski oraz zarysowano dalsze kierunki planowanych prac autora związanych z problematyką rozprawy. Rozprawę uzupełnia 5 załączników. Załącznik zawiera prezentację wykorzystanych w badaniach szeregów finansowych, z objaśnieniem stosowanych dalej skrótów. Pokazano przebiegi czasowe szeregów oryginalnych, ich przyrostów, a także rozkłady prawdopodobieństwa. Załącznik omawia podstawy formalne prognozowania matematycznego z wykorzystaniem liniowych modeli regresyjnych, w szczególności predykcji niestacjonarnych szeregów czasowych. Omówiono zasady wykorzystania analizy regresji, w tym modeli sygnałowych typu ARIMA i ARIMAX. Przeanalizowano formalną zasadność stosowania tych metod i podano rekomendacje dla wstępnego przetwarzania szeregów, umożliwiającego uzyskanie efektywnych i wiarygodnych prognoz. W załączniku 3 przedstawiono w formie graficznej wyniki analiz korelacyjnych najważniejszych sygnałów diagnostycznych. Załącznik 4 zawiera szczegółowe wyniki (w postaci tabelarycznej oraz graficznej) przeprowadzonych analiz efektywności zaproponowanych w pracy, oryginalnych miar odległości szeregów. Zamieszczono tam również szczegółowe (tabelaryczne) zestawienia porównawcze efektywności detekcji zdarzeń zwiastujących, uzyskane przy różnych parametrach algorytmu detekcji. Załącznik 5 zawiera informacje dotyczące wykorzystywanego i opracowanego w ramach badań oprogramowania oraz sprzętu komputerowego. Zamieszczono tam również dane charakteryzujące efektywność czasową opracowanego algorytmu immunopodobnego, a także czasy realizacji procedur segmentacji szeregów z wykorzystaniem testów największej wiarygodności. 9

10 Rozdział Problemy detekcji zdarzeń w szeregach czasowych. Definicja zdarzeń analizowanych w rozprawie Przedmiotem badań w niniejszej rozprawie są zdarzenia ujawniające się w szeregach czasowych, a więc charakteryzowane ilościowo wartościami próbek szeregu. W przypadku szeregów finansowych mogą one być efektem istotnych zdarzeń jakościowych o charakterze gospodarczym, politycznym i społecznym, wpływających na decyzje wielu inwestorów lub są wynikiem skoordynowanych (na ogół niejawnych) przedsięwzięć (spekulacje). W ujęciu formalnym, w zależności od specyfiki zadania detekcji, zdarzenie będzie rozumiane jako występowanie w szeregu czasowym zmian właściwości statystycznych próbek (np. skokowych zmian wartości średniej lub dyspersji w krótkim okresie, istotnych zmian trendów), zmian własności częstotliwościowych, pojawienie się wartości odstających lub krótkookresowego ciągu nietypowych wartości próbek tworzących różne wzorce [87] (np. konfiguracje skoków). Mając do dyspozycji treningowy (wzorcowy/stacjonarny) oraz testowy (badany) szereg czasowy, zdarzenie [59] określa się jako istotną (wg określonych kryteriów, np. statystycznych) różnicę pomiędzy takimi szeregami w ustalonym, odpowiednio krótkim przedziale czasu (obejmującym zwykle od kilku do kilkunastu próbek). Szeregi finansowe (będące głównym przedmiotem zainteresowania niniejszej rozprawy) są kształtowane przez bardzo liczne czynniki rynkowe, psychologiczne, polityczne itp., podlegające ustawicznym zmianom, których wpływ jest najczęściej losowy. W efekcie, pojedyncze szeregi finansowe mają właściwości dynamiczne bardzo zbliżone do błądzenia

11 przypadkowego (w ekonometrii określane jako szeregi integracyjne [57], [63], [83]). Wynika to z mechanizmów kształtowania się notowań, które na zasadzie równoważenia podaży i popytu niwelują możliwości osiągania stałych zysków w oparciu o łatwo wykrywalne autokorelacje przyrostów notowań. Niemniej, chwilowe kumulacje oddziaływań zewnętrznych mogą spowodować długoterminowe zmiany mechanizmów kształtujących te równowagi. Można to widzieć jako efekt bifurkacji w chaotycznym systemie dynamicznym, jakim są rynki lokalne i światowe [3]. Studium obszernej literatury omawiającej procesy kształtowania się notowań giełdowych [96], [7], [75], [3], [63], [5], [] daje podstawy do założenia, że istotne zmiany właściwości statystycznych szeregów (warunkowych rozkładów prawdopodobieństwa) są poprzedzane wykrywalnymi zdarzeniami zwiastującymi (nietypowe serie przyrostów w danym szeregu, wcześniejsze zmiany w innych szeregach itp.). Istotna trudność konstrukcji algorytmów rozważanych w rozprawie wynika z faktu, że większość wykrywalnych zdarzeń w szeregach finansowych ma charakter anomalii, tj. chwilowych (zanikających) zakłóceń bez długoterminowych skutków (np. będących efektem spekulacji). Interesujące zdarzenia (szczególnie zmiany długoterminowych trendów) są stosunkowo rzadkie i w każdym przypadku występują w innych uwarunkowaniach, a więc na ogół typowe metody statystyczne ich wykrywania (oparte np. na analizie autokorelacji, błędów predykcji średnioterminowej) dają mało wiarygodne rezultaty. Z drugiej strony, w ostatnich latach możliwe jest stosunkowo łatwe zbieranie szeregów finansowych poprzez Internet, co umożliwia przeprowadzenie obszernych analiz przekrojowych. Można zatem postawić następujące pytania badawcze:. Czy istotne zmiany właściwości statystycznych szeregów finansowych są poprzedzane sygnałami zwiastującymi, wykrywalnymi statystycznie lub ogólniej algorytmicznie?. W jakim stopniu wykrywalność zdarzeń poprzedzających zależy od liczby analizowanych szeregów? 3. W jakim stopniu wykrywalność zdarzeń można poprawić przez (a) zdefiniowanie odpowiednich, istotnych atrybutów (cech ilościowych) ciągów próbek, a z drugiej strony (b) usuwanie cech nieistotnych szeregu,

12 maskujących współzależności cech istotnych (specyfikacja i pomijanie takich cech nieistotnych będzie dalej nazywane wygrubianiem informacji)? Nawiązując do punktu 3, zasadniczym problemem badawczym jest określenie na ile przydatna może być precyzyjna analiza cech ilościowych (np. analiza korelacyjna oryginalnych próbek), czy też lepsze rezultaty detekcji zdarzeń można uzyskać wykorzystując dane jakościowe, takie jak zgrubnie skwantyfikowane wartości sygnałów lub zagregowana informacja obrazowa nawiązująca do tzw. formacji, stosowanych powszechnie w eksperckich analizach technicznych szeregów notowań [7].. Metody przetwarzania szeregów czasowych.. Predykcja szeregów czasowych Komputerowa analiza szeregów czasowych jest ukierunkowana na identyfikację ich właściwości statystycznych i dynamicznych, w powiązaniu ze znanymi oddziaływaniami zewnętrznymi o charakterze jakościowym lub ilościowym. Jej celem jest na ogół umożliwienie wiarygodnej predykcji lub/i symulacji szeregów z wykorzystaniem modeli matematycznych. Matematyczna predykcja szeregu czasowego [], [64], [57] polega na wyznaczeniu jego warunkowej wartości oczekiwanej (prognoza punktowa) dla chwili wyprzedzającej czas bieżący (czas rejestracji ostatniej próbki) o ustaloną liczbę próbek zwaną horyzontem predykcji. Wykorzystuje się do tego celu formuły matematyczne wyrażone jawnie (modele regresyjne parametryczne [], [64], modele w przestrzeni stanu [67], [3]) lub niejawnie (estymatory nieparametryczne, np. jądrowe [64], predyktory neuronowe [8]). Parametry predyktora wyznacza się na podstawie odpowiednio dobranych danych historycznych metodami optymalizacji (identyfikacja modeli regresyjnych, uczenie modeli neuronowych) lub dostrajania (modele nieparametryczne jądrowe, modele Holta i Browna oparte na wygładzaniu wykładniczym [8]). Analiza właściwości statystycznych reszt lub błędów predyktora w okresie historycznym umożliwia wyznaczenie rozkładu prawdopodobieństwa błędów prognoz, na podstawie którego można formułować prognozy przedziałowe [], [64].

13 Modele predykcyjne można podzielić na jednowymiarowe i wielowymiarowe. W predykcji jednowymiarowej (jednoczynnikowej) szereg czasowy traktowany jest jako proces stochastyczny o nieznanym wejściu losowym. Predykcję, na ogół jednokrokową, wyznacza się bądź na podstawie modelu dynamiki szeregu (modele sygnałowe typu ARMA (ang. AutoRegressive Moving Average) Boxa-Jenkinsa []) lub poprzez ekstrapolację formuły trendu (modele ekstrapolacyjne). Modele ekstrapolacyjne mogą być stosowane dla dowolnych szeregów. Parametry funkcji trendu (przyjętej arbitralnie) wyznacza się albo metodą najmniejszych kwadratów przez aproksymację szeregów w oknie o ustalonej szerokości [67], [64] (ewentualnie uzupełnioną poprzez wyznaczenie tzw. trendu pełzającego [57]) albo metodą wygładzania wykładniczego bieżącej wartości oczekiwanej i przyrostów szeregu (predyktor Holta). Jako formułę trendu przyjmuje się najczęściej wielomian, zazwyczaj pierwszego stopnia (trend liniowy), ale mogą to być również funkcje okresowe, wykładnicze, logistyczne itp. [68]. Ze względu na założoną niestacjonarność modele te są na ogół adaptowane przez obliczanie albo modyfikację parametrów po uzyskaniu każdej kolejnej próbki. Modele sygnałowe Boxa-Jenkinsa wyznacza się metodą regresji dynamicznej jako zależność kolejnych wartości szeregu od jego wartości poprzednich (autoregresja, ang. AutoRegression, AR) oraz reszt uzyskanych w wyniku poprzednich predykcji w ustalonym przedziale czasu, obejmującym zwykle nie więcej niż kilka próbek (średnia ruchoma, ang. Moving Average, MA). Mogą być one stosowane tylko dla procesów stacjonarnych. Ze względu na silny wpływ czynników losowych, typowy dla procesów ekonometrycznych (m.in. szeregów finansowych), przeważnie stosuje się modele ARMA niewysokiego rzędu, najczęściej pierwszego, bez członu MA (AR(,)), jako że zastosowanie modeli wyższego rzędu daje przeważnie gorsze wyniki [65]. W przypadku braku istotnej autokorelacji pomija się również człon AR, co daje predyktor trywialny zerowego rzędu (ang. zero-order-prediction, ZOP). W tym przypadku prognozę punktową z dowolnym wyprzedzeniem stanowi długoterminowa wartość średnia takiego szeregu, a rozkład prawdopodobieństwa błędu jest taki, jak rozkład elementów szeregu w okresie historycznym. Taka prognoza jest często stosowana niejawnie w odniesieniu do przewidywania własności zmiennych losowych wyłącznie na podstawie ich historycznych statystyk (np. przewidywanie parametrów populacji generalnej w oparciu o statystyki uzyskane dla prób losowych). Predyktory dynamiczne stosowane są często do poprawiania prognoz ekstrapolacyjnych. Formułę 3

14 ARMA wyznacza się wówczas dla reszt trendu lub ciągu błędów prognoz predyktora Holta, które można traktować jako proces stacjonarny. Dla często spotykanych w praktyce procesów niestacjonarnych typu integracyjnego [57], [63], predyktory dynamiczne typu ARMA wyznacza się dla przyrostów szeregu, co daje predyktor typu ARIMA (ang. Integrated ARMA). Szczególnym, ale bardzo ważnym i często spotykanym przypadkiem, jest tu proces Wienera, zwany błądzeniem przypadkowym (ang. random walk) lub procesem integracyjnym pierwszego rzędu, którego przyrosty są stacjonarnym ciągiem niezależnych liczb losowych. Dla szeregów mających taką własność optymalnym predyktorem punktowym z dowolnym wyprzedzeniem jest ostatnia wartość szeregu podtrzymanie zerowego rzędu (ang. zero-order-hold, ZOH). Wariancja błędu takiej prognozy jest proporcjonalna do długości horyzontu predykcji. Godne podkreślenia jest, że predyktor ZOH nie wymaga estymacji żadnych parametrów, a więc jest wyjątkowo wygodnym narzędziem prognozowania, jakkolwiek dla jego formalnego uzasadnienia konieczne jest wykazanie braku statystycznej istotności autokorelacji przyrostów, co wymaga analizy długich ciągów historycznych (co najmniej od kilkuset próbek). Jak wspomniano uprzednio, szeregi finansowe będące przedmiotem badań w niniejszej pracy, można w uproszczeniu traktować jako procesy Wienera. W związku z tym prognoza trywialna ZOH będzie punktem odniesienia do oceny efektywności innych technik prognozowania. Odnosi się to także do typowych zakłóceń przemysłowych [67]. Predyktory wieloczynnikowe uwzględniają powiązania statystyczne prognozowanego szeregu z innymi szeregami o znanych wartościach przy założeniu, że czynniki te zwane egzogenicznymi oddziałują istotnie, ale z opóźnieniem, na wartości szeregu prognozowanego. Najczęściej mają one postać modeli sygnałowych uzupełnionych członami reprezentującymi liniowy wpływ czynników zewnętrznych (formuły typu ARMAX i ARIMAX, ang. exogenous ARMA, ARIMA) [64], [], [93]. W przypadku, gdy zmienną objaśniającą jest zmienna decyzyjna, model określa się akronimem CARMA (ang. Controlled ARMA). Właściwości modeli sygnałowych jedno i wielowymiarowych oraz metody ich identyfikacji są obszernie omówione w monografii [], a także w literaturze dotyczącej przetwarzania sygnałów w automatyce, metrologii itp. [83], [77], [67]. Stosowane są również zmodyfikowane wersje modeli sygnałowych [6], jak na przykład X- ARIMA. Szczegółowy opis 4

15 podstaw formalnych predykcji z wykorzystaniem modeli regresyjnych, w tym sygnałowych, jest omówiony w załączniku. Do predykcji szeregów czasowych, charakteryzujących się zmienną wariancją, wykorzystuje się modele uwzględniające autoregresję wariancji, tzw. autoregresyjne heteroskedastyczne modele warunkowe ARCH (ang. AutoRegressive Conditional Heteroscedasticity) [7] oraz ich rozwinięcie modele typu GARCH [5], [53], [5], [8]. Znajdują one zastosowanie m.in. do krótkoterminowego prognozowania szeregów finansowych. W ostatnich latach dużym zainteresowaniem cieszą się predyktory wieloczynnikowe oparte na wykorzystaniu sieci neuronowych [85], [8], [], [3]. Implementuje się w ten sposób modele o strukturze zbliżonej do ARMA, ale z wykorzystaniem niejawnych, nieliniowych przekształceń zmiennych objaśniających, z parametrami wyznaczanymi metodą uczenia na danych historycznych. W szczególności, obiecujące wyniki prognozowania (m.in. szeregów giełdowych) uzyskano przez połączenie idei sieci neuronowych i klasyfikacji rozmytej z jednowymiarową funkcją przynależności [3], [39], zależną od odległości euklidesowej bieżących cech szeregu i jego otoczenia (wartości czynników uwzględnionych w modelu zarejestrowanych w chwili bieżącej) od centroidów wyspecyfikowanych klas (tzw. sieci neuronowe z radialnymi funkcjami bazowymi, ang. Radial Basis Function Neural Nets RBFNN [7], []). Centroidy oraz parametry funkcji przynależności wyznacza się metodami uczenia sieci neuronowych. Podstawowym założeniem każdej prognozy matematycznej jest przyjęcie, że wykorzystywane w predykcji właściwości statystyczne szeregów w okresie historycznym pozostają aktualne do chwili zakończenia horyzontu predykcji. Jeśli dla przyjętego horyzontu założenie to jest bezdyskusyjne, to prognozę określa się jako krótkoterminową i może być ona w pełni oparta na przyjętych formułach predyktora. Zwykle oznacza to ograniczenie horyzontu predykcji do kilku próbek. Prognozowanie z dłuższym horyzontem stwarza większe ryzyko wystąpienia istotnych zmian mechanizmów kształtujących szereg czasowy. Jeśli mimo to można założyć, że podstawowe mechanizmy zostaną zachowane, to prognozę nazywać będziemy średnioterminową. Dotyczy ona zwykle wyprzedzeń od kilkunastu do kilkudziesięciu próbek, a w niektórych przypadkach nawet kilkuset. Mogą tu być stosowane modele sygnałowe lub odcinkowo-liniowe reprezentacje szeregów (ang. piecewise linear 5

16 representation) [34], [6], [9], gdzie dla każdego odcinka (segmentu) zakłada się stałość parametrów statystycznych, w tym dopuszczalność ekstrapolacji ostatnio wydzielonego trendu. Dla uniknięcia dużych błędów prognoz w przypadku zmian właściwości statystycznych szeregu, w szczególności zmian parametrów ekstrapolowanego trendu, wskazane jest nadzorowanie działania predyktora metodami eksperckimi lub algorytmicznymi, ukierunkowane na detekcję wystąpienia tych zmian. W przypadku dłuższych horyzontów predykcji (rzędu kilkuset i więcej próbek) na ogół nie można założyć utrzymania adekwatności predyktorów matematycznych. Mówimy wówczas o predykcji długoterminowej, w której dominującą rolę odgrywają prognozy eksperckie. Są one jednak często wspomagane wariantowymi prognozami matematycznymi, technikami symulacji Monte Carlo itp. [57]. Przedmiotem zainteresowania w niniejszej rozprawie są możliwości usprawnienia prognoz średnioterminowych przez opracowanie metod ich algorytmicznego nadzorowania, zarówno z wykorzystaniem testów statystycznych, jak i reguł wykorzystujących przekrojowe analizy zdarzeń w otoczeniu badanych szeregów. Niezależnie od zasadniczego zastosowania, predyktory matematyczne można wykorzystać do analizy właściwości czynników losowych wpływających na badany proces. Jako ich reprezentację przyjmuje się albo reszty formuł ekstrapolacyjnych (analiza rezidualna), albo błędy prognoz opartych na modelach sygnałowych. Uzyskane w ten sposób ciągi traktuje się jako podstawowe sygnały diagnostyczne, umożliwiające detekcję zdarzeń, co w powiązaniu ze znanymi jakościowymi czynnikami zewnętrznymi wykorzystuje się do wsparcia prognoz eksperckich, wykrywania anomalii lub poszukiwania powiązań statystycznych między właściwościami statystycznymi błędów predyktora, a zdarzeniami. To ostatnie zastosowanie będzie eksplorowane w niniejszej rozprawie... Problemy monitorowania szeregów czasowych i generowania sygnałów diagnostycznych Monitorowanie szeregów jest ważnym obszarem zastosowań komercyjnych, a także badań naukowych mającym m.in. zastosowanie w systemach komputerowego sterowania i nadzorowania. Celem monitorowania jest selekcja informacji istotnych, z wykorzystaniem dekompozycji szeregu na składowe wolno i szybkozmienne, w tym 6

17 losowe. Dekompozycję prowadzi się z wykorzystaniem filtracji dolnoprzepustowej, m.in. metodą wygładzania szeregu [46], [5], transformacji falkowej [48], [46], [6], aproksymacji minimalnokwadratowej (wyznaczanie trendu, aproksymacja harmoniczna [], [75]) i identyfikacji modeli sygnałowych. Selekcja informacji może być ukierunkowana bądź na wykorzystanie w analizach eksperckich, bądź do dalszego przetwarzania ilościowego. Dla potrzeb analiz eksperckich ważny jest dobór graficznej reprezentacji szeregu, z pokazaniem przebiegów poszczególnych składowych i wyodrębnieniem charakterystycznych wzorców. W odniesieniu do szeregów finansowych metody takie są szeroko rekomendowane jako tzw. analiza techniczna [7], [43]. Wykorzystuje się tu proste metody analiz ilościowo-jakościowych sygnałów, takie jak m.in. wizualizacja średnich ruchomych [5] (metoda trzech średnich, gdzie badana jest relacja średnich obliczonych w oknach o różnych szerokościach), analiza okresowości [53], wyodrębnianie segmentów szeregu o charakterystycznych, powtarzalnych kształtach (tzw. formacji), a także metoda świec japońskich (ilościowo-graficzna prezentacja danych w postaci ciągów tzw. świec) [7]. W analizach ilościowych składowe szeregów są poddawane dalszemu przetwarzaniu, jako oddzielne sygnały diagnostyczne (tzw. analiza wielorozdzielcza [9], [7], [7]). Mogą być one ukierunkowane na badanie współzależności o charakterze deterministycznym i losowym badanych zjawisk reprezentowanych szeregami czasowymi. Wykorzystuje się tu techniki korelacyjne [5], transformację Karhunena-Loevego (KL) [4], [54] i analizę składowych głównych PCA (ang. Principal Components Analysis) [], [34], a także techniki eksploracji danych (do tej grupy zaliczane są m.in. metody oparte na zastosowaniu miar odległości, określanych też miarami odmienności szeregów [4], [4], [6], [58], [3]). Zastosowanie technik komputerowych pozwala na implementację złożonych metod przetwarzania szeregów. Implementowane są mechanizmy klasyczne oraz adaptacyjne, udoskonalone często metodami tzw. inteligencji obliczeniowej, eksplorujące różnorodne paradygmaty. Wiele algorytmów wymaga arbitralnego dostrajania parametrów [4], [5], [65]. Algorytmy takie, wykorzystujące analityczne oraz neuronowe techniki identyfikacji, grupowania i klasyfikacji, systemy ekspertowe, w tym metody zaliczane do tzw. nowej inżynierii [38], mają zastosowanie bezpośrednie (np. detekcja anomalii umożliwiająca wykrycie awarii urządzenia [43]) bądź pośrednie, ukierunkowane na 7

18 przetwarzanie danych wejściowych w celu wygenerowania sygnału diagnostycznego, stanowiącego sygnał wejściowy innych metod przetwarzania, jak np. kompresji danych [34], [9] czy redukcji wymiarowości [47], [], [3]. Metody inteligencji obliczeniowej wykorzystywane są do zwiększenia skuteczności mechanizmów klasycznych. Wśród takich metod można wyróżnić dwa stosowane podejścia. Pierwsze opiera się na narzędziowym wykorzystaniu danej metody ze względu na własności, charakterystykę, szybkość działania czy rodzaj uzyskiwanych wyników. Przykładem jest zastosowanie sztucznych sieci neuronowych [8], [9], [33], [4], [47], [9]. Drugie podejście związane jest z wykorzystaniem analogii zadania detekcji zdarzeń do innych zjawisk, w szczególności spotykanych w naturze 5. Podejście to ma zastosowanie dla zwiększania skuteczności działania mechanizmów klasycznych, a także wpływa na efektywniejsze wykorzystanie mocy obliczeniowych powszechnie dziś dostępnych komputerów (m.in. poprzez rozpraszanie obliczeń, zastosowanie architektury klastrowej/gridowej). Jednym z wykorzystywanych paradygmatów jest podejście immunologiczne [4], którego założenia i mechanizmy znajdują także odwzorowanie w przetwarzaniu sygnałów oraz detekcji zdarzeń w szeregach czasowych [59]. Z punktu widzenia niniejszej pracy szczególną rolę odgrywa analiza składowych szybkozmiennych. Jak wspomniano w poprzednim rozdziale, mogą one być uzyskane przez wyznaczenie reszt modeli predykcyjnych i traktowane jako procesy stochastyczne reprezentujące czynniki losowe wpływające na proces. Można oczekiwać, że w tych składowych znajdują odzwierciedlenie nagłe zdarzenia jakościowe zewnętrzne, zarówno incydentalne (ujawniające się w postaci krótkotrwałych anomalii), jak i te powodujące długoterminowe skutki. Dla takich sygnałów prowadzone są analizy diagnostyczne zmierzające do detekcji zdarzeń. Analizy te mogą być prowadzone zarówno w dziedzinie czasu [35], [5], [5] oraz częstotliwości []. Istotnym elementem selekcji informacji jest eliminacja mniej istotnych cech szeregu, pozwalająca na skuteczniejszą ocenę najbardziej istotnych cech badanych procesów. Przykładowo, dla badania współzależności szeregów czasowych w ekonometrii powszechnie stosowane są korelacje rangowe Spearmana [5] oraz korelacje τ Kendalla [6]. 5 W pracy [4] przeprowadzono analizę istnienia analogii pomiędzy sygnałem giełdowym, a sygnałem naturalnym pulsem serca organizmu. Pomimo znalezienia podobieństw stwierdzono, że w obydwu przypadkach wiedza ekspercka ogrywa istotną rolę, co powoduje problemy algorytmizacji (brak możliwości identyfikacji modelu), natomiast można wykorzystywać podobne narzędzia analiz. 8

19 ..3 Detekcja zdarzeń..3. Problemy detekcji zdarzeń w szeregach czasowych W literaturze detekcja zdarzeń określana jest między innymi jako detekcja anomalii (ang. anomaly detection), nowości (ang. novelty detection) [65], [57], [57], [7], [3], [], [44], [4], wartości odstających (ang. outlier detection) [97], [], [], [7], [45], [3], [4] czy zmian punktowych (ang. change point detection) [], [84]. Znajdowanie w szeregu czasowym określonych sekwencji nazywane jest rozpoznawaniem wzorców (ang. pattern recognition) [44], [87], [98], [3], [54], [86]. Detekcja zdarzeń związana jest z przetwarzaniem danych wejściowych, ukierunkowanym na identyfikację krótko oraz długoterminowych okresów niestandardowego zachowania sygnału w analizowanym oknie, zazwyczaj wydzielania okresów stacjonarności i niestacjonarności (pojawienie się niestacjonarności o nielosowych przyczynach). Zadanie detekcji anomalii może być postrzegane jako znalezienie odpowiedniego rozkładu prawdopodobieństwa określonych cech (atrybutów) anomalii [58]. Innym podejściem spotykanym w literaturze [] jest rozpatrywanie problemu wykrywania zdarzeń jako zadania nienadzorowanej klasyfikacji (problem jednej klasy), gdzie zakłada się, że dane treningowe zawierają jedynie przykłady z jednej klasy, natomiast dane testowe mogą być zaliczone do wielu klas. Opisywana jest zazwyczaj tylko jedna klasa (klasyfikacja binarna) oraz sposób rozróżnienia pomiędzy innymi możliwymi obiektami. Detekcja zdarzeń jest więc problemem generowania granic decyzyjnych pomiędzy klasą normalną i klasą nieprawidłową (klasą anomalii) [8], a więc znalezienie odwzorowania przynależności danych wejściowych do danej klasy. Funkcja odwzorowująca (minimalizująca błąd odwzorowania []) jest algorytmem klasyfikacji, który jest trenowany (uczony) na podstawie zestawu danych treningowych. Jak wspomniano we wstępie tej pracy, zaawansowane algorytmy detekcji zdarzeń w szeregach czasowych są rzadko publikowane, jednak z pewnością są one przedmiotem badań w wielu ośrodkach naukowych. Klasyczne podejście opiera się na analizach istotności odchyłek [8], [37] oraz testach stosunku funkcji wiarygodności (ang. Likelihood Ratio Test, LR) znanych jako metoda Page a-hinkleya [8], wraz z uogólnieniami opartymi m.in. na wielokryterialnej analizie istotności trendów [67], [35]. Metody te wykazują bardzo dobrą skuteczność detekcji zmian dla sygnałów 9

20 zaszumionych zakłóceniami wysokoczęstotliwościowymi [67]. Jednak przy rygorystycznych wymaganiach (niskie prawdopodobieństwo fałszywego alarmu, prawdopodobieństwo niewykrycia zdarzenia) metody te mają stosunkowo duże opóźnienie detekcji (zbyt długie okno analizy), przez co zachodzi potrzeba stosowania przetwarzania równoległego [39] (lub współbieżnego) szeregów w różnych wymiarach oraz opóźnieniach czasowych, z uśrednieniem wyników końcowych. W zadaniu wykrywania anomalii w szeregach czasowych istotna jest [6], [89], [9], [9], [9], [84] informacja o średniej wartości przyrostów analizowanych szeregów, trendzie i parametrach dynamiki czy odchyleniu standardowym, które mogą być parametrami wejściowymi słabych testów statystycznych (np. testu serii odchyłek od trendu umożliwiających detekcję krótkoterminowych zmian [35]), testów silnych (stosunku funkcji wiarygodności, umożliwiającego wykrycie zmian długoterminowych) oraz metod prognozowania krótko i średnioterminowego. Skokowe zmiany wartości średniej przyrostów o małej amplitudzie (względnie długo utrzymujące się) mogą być traktowane jako zmiany trendu w oryginalnym szeregu i wykrywane z wykorzystaniem silnych testów statystycznych. Zmiany takie powodują konieczność krótko lub długoterminowej zmiany parametrów predyktorów. Dla analiz szeregów finansowych istotne wydaje się być wykrywanie tzw. zdarzeń cichych, będących krótkoterminowymi zwiastunami długoterminowych zmian, o określonej konfiguracji. Poprzedzają one zmiany właściwości statystycznych szeregu, mogą generować informację o zmianie zachowania szeregu (lub grupy szeregów), mającej następstwo w postaci zmian w innym szeregu (bądź grupie). Wykrywanie takich konfiguracji (koincydencji) też może być przedmiotem detekcji, gdzie istotne znaczenie mieć będzie analiza danych w okresach czasu bezpośrednio poprzedzających zmianę trendu, co daje możliwość sygnalizowania potencjalnego wystąpienia kolejnych takich zmian w przyszłości bądź konieczności zmiany szerokości okna analizy (opóźnienia) przy utrzymaniu założonego prawdopodobieństwa fałszywego alarmu oraz prawdopodobieństwa niewykrycia zdarzenia. Implementacja określonej metody algorytmicznej detekcji zdarzeń uzależniona jest od charakterystyki danych wejściowych (właściwości statystyczne, częstotliwościowe, wymiarowość, kompletność), atrybutów zdarzeń (amplituda, czas trwania, okresowość, koincydencja), dopuszczalnego opóźnienia detekcji, czy stosowalności takich analiz dla określonych uwarunkowań. Wiele algorytmów wymaga dostrojenia parametrów pracy

21 oraz odpowiedniego doboru sygnału diagnostycznego celem ukierunkowania na oryginalne warunki przetwarzania. Kluczowym elementem wykrywania zdarzeń jest zastosowany algorytm klasyfikacji, wpływający bezpośrednio na skuteczność detekcji oraz możliwość zastosowania dla heterogenicznych zestawów danych...3. Metody detekcji i ich zastosowania przegląd literatury Przegląd literatury światowej z zakresu przetwarzania informacji cyfrowej oraz analizy i eksploracji danych wskazuje na duże zainteresowanie informatyków obszarem detekcji zdarzeń w szeregach czasowych. Zazwyczaj prezentowane są zastosowania algorytmów, których zasada działania opiera się głównie na zadaniu klasyfikacji. W wielu przypadkach istnieje trudność w uzyskaniu negatywnych próbek, dlatego algorytmy nienadzorowanego uczenia wydają się być przydatne w zadaniu uczenia maszynowego. Zastosowanie danej metody ukierunkowane jest na wychwycenie określonych cech zdarzeń oraz wykorzystanie zależności obecnych w szeregu i pomiędzy zdarzeniami. Przykładem jest monitorowanie szeregów pod kątem analizy częstotliwości występowania zdarzeń (różnica między częstotliwością aktualną, a oczekiwaną, uzyskaną na podstawie analizy danych historycznych) [3], analiza podobieństwa trendów, zlokalizowanych wzorców [3], [3] oraz charakterystyk (wartość, nachylenie, kształt) punktów serii treningowej i testowej [59]. Szczególnej analizie poddawane są odchyłki od naturalnego (ustalonego, statystycznego) zachowania szeregu [44], [4], [6] oraz wartości odstające [7], [65], [44]. Prezentowane w literaturze algorytmy wykrywania zdarzeń wykorzystują klasyczne oraz złożone metody przetwarzania danych [95], w tym hybrydowe (zagregowane) [55], [84], łączące podejścia stosowane w różnych modelach. W szczególności, badania ukierunkowane są na wykorzystanie podejścia statystycznego [5], [39], [65], [8]. Stosowane są tzw. metody różnicowe [84] wykazujące zmiany na podstawie analizy różnic pomiędzy aktualnymi, a założonymi wartościami, czy metody sum skumulowanych (CUSUM) [7], wykorzystywane przykładowo do monitorowania przekroczenia zadanego progu błędu. Do estymacji lokalizacji punktów zmian parametrów procesów stosowane są procedury bayesowskie [4], []. Detekcja zdarzeń może być przeprowadzona w oparciu o analizę rozkładów prawdopodobieństwa. Przykładowo, poprzez testowanie hipotez statystycznych [65] badana jest przynależność próbki do tego samego rozkładu, co próbka treningowa. Stosuje się także metodę GMM (Gaussian

22 Mixture Model) (wykorzystanie liniowej kombinacji rozkładów normalnych) [65], [44], [5] oraz metody HMM (ukryte modele Markowa, ang. Hidden Markov Models) [3], [44], [87]. Większość podejść statystycznych bazuje na modelowaniu gęstości danych treningowych i odrzucania próbek, które znajdują się w regionach małych gęstości. W statystycznej analizie sygnałów często niezbędna jest a priori informacja o rozkładach, co uniemożliwia zastosowanie takich metod w każdych warunkach [84]. W tym celu stosuje się odpowiednie metody do aproksymowania rozkładów prawdopodobieństwa (np. sieci neuronowe [36], estymatory nieparametryczne []). Inną powszechnie stosowaną grupą metod są techniki eksploracji danych (ang. data mining) [46], [99], [56], [4], [9], [65], do których zaliczyć można m.in. metody badania asocjacji [74], [94], a także podejścia klasteryzacji [65], której idea opiera się na podziale danych na określoną liczbę klastrów. Do wyszukiwania podobnych wzorców w szeregach czasowych wykorzystuje się zazwyczaj algorytm najbliższego sąsiada (ang. nearest neighbour) [85]. Wiele podejść wykrywania zdarzeń [5], [5], [43], [93], bazuje na przekształceniu zadania detekcji do wielowymiarowej przestrzeni kształtów, gdzie proces detekcji ma formę generowania detektorów i dopasowywania do próbek. Generowane są detektory uogólnione, ukierunkowane na wykrywanie nieprzewidywalnych (nieznanych) warunków [43]. Wykorzystywane są także tzw. modele ścieżkowe (ang. path models), stosowane do obliczania trajektorii dla szeregu testowego i treningowego [58]. Szerokim obszarem implementacji algorytmów detekcji zdarzeń są metody sztucznej inteligencji (w tym uczenia maszynowego [43], [9]): sztuczne sieci neuronowe [67], [3], [8], systemy immunologiczne [96], [7], [4], [5], [43], [5], [8], [44], [97], [93], [95], [97] oraz ekspertowe [43]. W zadaniu detekcji zdarzeń często wykorzystywana jest logika rozmyta [43], mająca zastosowanie m.in. w postaci rozmytych reguł decyzyjnych (klasyfikacyjnych) [93], [97], [95]. Do pozostałych metod, będących przedmiotem badań, zaliczyć można m.in. techniki oparte na dekompozycjach falkowych [7], [5], [47], [3], [47], [48], [] i analizach częstotliwościowych [3], [46]. Algorytmy detekcji zdarzeń mają zastosowanie w wielu obszarach, jak m.in.: detekcji uszkodzeń (ang. fault detection) [3], [44], [6], rozpoznawaniu obrazów [86] (np. analizie mammogramów [], [79], pisma odręcznego [4]), analizie ruchu

23 sieciowego [7], [4], [], systemach komunikacyjnych [], prognozowaniu [54], [56], [85], [39], [8], w usługach internetowych oraz handlu elektronicznym (ang. e-commerce) [6], statystycznej kontroli procesów (ang. statistical process control, SPC) [], [7], [35], [84], marketingu [] i innych..3 Sztuczne systemy immunologiczne Jak wspomniano w podrozdziale., w wielu pracach sygnalizuje się możliwości usprawnienia przetwarzania szeregów przez odwzorowanie procesów i zjawisk występujących w przyrodzie. W szczególności, algorytmiczną adaptację predyktorów do nieoczekiwanych zmian właściwości szeregów można postrzegać jako zadanie analogiczne do ochrony organizmu przez system immunologiczny..3. Naturalne układy odpornościowe Naturalny układ odpornościowy realizuje proces ochrony organizmu, polegający na wykrywaniu i eliminacji komórek obcych (patogenów) przez limfocyty [49]. Proces ten przebiega w dwóch etapach (ma strukturę dwupoziomową). Etap pierwszy polega na stałym monitorowaniu komórek organizmu pod kątem wykrywania komórek obcych. Zadanie to realizowane jest przez limfocyty 6 (głównie typu T) [49], [4], [78]. W etapie drugim następuje reakcja limfocytów (głównie komórek B) wobec rozpoznanych antygenów w postaci pierwotnej odpowiedzi immunologicznej (napotkanie patogenu po raz pierwszy) bądź wtórnej 7 (detekcja patogenu wcześniej rozpoznanego) [49], [47], [99], będącej efektem tworzonej oraz modyfikowanej pamięci immunologicznej (istniejącej dzięki limfocytom, głównie Th oraz B), przechowującej informacje o typach napotkanych patogenów oraz sposobie reakcji układu. Wysoka skuteczność prowadzonej detekcji komórek obcych uzyskiwana jest dzięki procesowi selekcji negatywnej (odbywającego się w grasicy podczas dojrzewania tych komórek), podczas którego limfocyty są testowane na komórkach własnych organizmu i usuwane w przypadku błędnej klasyfikacji. Na skuteczność eliminacji patogenów ma wpływ 6 Limfocyty są tak ukształtowane, aby nie reagowały na obecność komórek własnych, natomiast w sytuacji napotkania patogenu generują sygnał inicjujący odpowiedź immunologiczną organizmu. Wysoką skuteczność detekcji uzyskuje się w organizmie poprzez stałą wymianę populacji limfocytów. 7 Wtórna odpowiedź układu jest szybsza i skuteczniejsza od pierwszej z uwagi na wykorzystanie pamięci immunologicznej, gdzie przechowywana jest informacja o sposobie reakcji na dany typ antygenu. 3

Pokazać jeszcze