IDENTYFIKACJA OBSERWACJI ODDALONYCH W SZEREGACH CZASOWYCH

Podobne dokumenty
licencjat Pytania teoretyczne:

specyfikacji i estymacji modelu regresji progowej (ang. threshold regression).

Ewa Dziawgo Uniwersytet Mikołaja Kopernika w Toruniu. Analiza wrażliwości modelu wyceny opcji złożonych

WNIOSKOWANIE STATYSTYCZNE

DYNAMICZNE MODELE EKONOMETRYCZNE

O JAKOŚCI DANYCH W KONTEKŚCIE OBSERWACJI ODDALONYCH W WIELOWYMIAROWEJ ANALIZIE REGRESJI

1. Szereg niesezonowy 1.1. Opis szeregu

Politechnika Częstochowska Wydział Inżynierii Mechanicznej i Informatyki. Sprawozdanie #2 z przedmiotu: Prognozowanie w systemach multimedialnych

Stanisław Cichocki Natalia Nehrebecka. Wykład 3

DYNAMIKA KONSTRUKCJI

KURS EKONOMETRIA. Lekcja 1 Wprowadzenie do modelowania ekonometrycznego ZADANIE DOMOWE. Strona 1

Pobieranie próby. Rozkład χ 2

Kombinowanie prognoz. - dlaczego należy kombinować prognozy? - obejmowanie prognoz. - podstawowe metody kombinowania prognoz

Stanisław Cichocki Natalia Nehrebecka. Wykład 4

Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach ISSN Nr

Ocena płynności wybranymi metodami szacowania osadu 1

Stanisław Cichocki Natalia Nehrebecka. Wykład 3

TESTOWANIE EGZOGENICZNOŚCI ZMIENNYCH W MODELACH EKONOMETRYCZNYCH

Prognozowanie średniego miesięcznego kursu kupna USD

WYBRANE TESTY NIEOBCIĄŻONOŚCI MIAR RYZYKA NA PRZYKŁADZIE VALUE AT RISK

DYNAMICZNE MODELE EKONOMETRYCZNE

ZASTOSOWANIE TEORII MASOWEJ OBSŁUGI DO MODELOWANIA SYSTEMÓW TRANSPORTOWYCH

Analiza rynku projekt

METODY STATYSTYCZNE W FINANSACH

ESTYMACJA KRZYWEJ DOCHODOWOŚCI STÓP PROCENTOWYCH DLA POLSKI

Witold Orzeszko Uniwersytet Mikołaja Kopernika w Toruniu. Własności procesów STUR w świetle metod z teorii chaosu 1

Jacek Kwiatkowski Magdalena Osińska. Procesy zawierające stochastyczne pierwiastki jednostkowe identyfikacja i zastosowanie.

PROPOZYCJA NOWEJ METODY OKREŚLANIA ZUŻYCIA TECHNICZNEGO BUDYNKÓW

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO NR 690 FINANSE, RYNKI FINANSOWE, UBEZPIECZENIA NR

Alicja Ganczarek Akademia Ekonomiczna w Katowicach. Analiza niezależności przekroczeń VaR na wybranym segmencie rynku energii

Parytet stóp procentowych a premia za ryzyko na przykładzie kursu EURUSD

Strukturalne podejście w prognozowaniu produktu krajowego brutto w ujęciu regionalnym

Parametryczny koder mowy - wokoder. Synteza mowy w odbiorniku: d=1 - mowa dźwięczna (T 0 = okres tonu krtaniowego) d=0 - mowa bezdźwięczna

EKONOMETRIA wykład 2. Prof. dr hab. Eugeniusz Gatnar.

E k o n o m e t r i a S t r o n a 1. Nieliniowy model ekonometryczny

Analiza metod oceny efektywności inwestycji rzeczowych**

Witold Orzeszko Uniwersytet Mikołaja Kopernika w Toruniu

KONCEPCJA WARTOŚCI ZAGROŻONEJ VaR (VALUE AT RISK)

PROGRAMOWY GENERATOR PROCESÓW STOCHASTYCZNYCH LEVY EGO

Ocena efektywności procedury Congruent Specyfication dla małych prób

MODELOWANIE WŁASNOŚCI SZEREGÓW STÓP ZWROTU SKOŚNOŚĆ ROZKŁADÓW

Dendrochronologia Tworzenie chronologii

DYNAMICZNE MODELE EKONOMETRYCZNE

DYNAMICZNE MODELE EKONOMETRYCZNE

WYKORZYSTANIE STATISTICA DATA MINER DO PROGNOZOWANIA W KRAJOWYM DEPOZYCIE PAPIERÓW WARTOŚCIOWYCH

CHEMIA KWANTOWA Jacek Korchowiec Wydział Chemii UJ Zakład Chemii Teoretycznej Zespół Chemii Kwantowej Grupa Teorii Reaktywności Chemicznej

PROGNOZOWANIE. Ćwiczenia 2. mgr Dawid Doliński

Efekty agregacji czasowej szeregów finansowych a modele klasy Sign RCA

Matematyka ubezpieczeń majątkowych r. ma złożony rozkład Poissona. W tabeli poniżej podano rozkład prawdopodobieństwa ( )

ROCZNIKI INŻYNIERII BUDOWLANEJ ZESZYT 7/2007 Komisja Inżynierii Budowlanej Oddział Polskiej Akademii Nauk w Katowicach

Klasyfikacja modeli. Metoda najmniejszych kwadratów

O ODPORNOŚCI NA OBSERWACJE ODSTAJĄCE WYBRANYCH NIEPARAMETRYCZNYCH MODELI REGRESJI

ψ przedstawia zależność

DYNAMICZNE MODELE EKONOMETRYCZNE

OBLICZANIE TERMINU REALIZACJI PRZEDSIĘWZIĘĆ BUDOWLANYCH METODĄ CCPM NA PODSTAWIE MULTIPLIKATYWNEGO MODELU CZASU TRWANIA CZYNNOŚCI

ANALIZA POWIĄZAŃ MIĘDZY INDEKSAMI GIEŁDY FRANCUSKIEJ, HOLENDERSKIEJ I BELGIJSKIEJ Z WYKORZYSTANIEM MODELU KOREKTY BŁĘDEM

( ) ( ) ( τ) ( t) = 0

Niestacjonarne zmienne czasowe własności i testowanie

ZASTOSOWANIE MODELI EKONOMETRYCZNYCH DO BADANIA SKŁONNOŚCI

Metody prognozowania: Szeregi czasowe. Dr inż. Sebastian Skoczypiec. ver Co to jest szereg czasowy?

SZACOWANIE MODELU RYNKOWEGO CYKLU ŻYCIA PRODUKTU

FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS Folia Pomer. Univ. Technol. Stetin., Oeconomica 2015, 323(81)4,

Rozdział 4 Instrukcje sekwencyjne

Management Systems in Production Engineering No 4(20), 2015

Analiza taksonomiczna porównania przyspieszenia rozwoju społeczeństwa informacyjnego wybranych krajów

Elżbieta Szulc Uniwersytet Mikołaja Kopernika w Toruniu. Modelowanie zależności między przestrzennoczasowymi procesami ekonomicznymi

MODELOWANIE EFEKTU DŹWIGNI W FINANSOWYCH SZEREGACH CZASOWYCH

Analiza danych DRZEWA DECYZYJNE. Drzewa decyzyjne. Entropia. test 1 dopełnienie testu 1

ZASTOSOWANIE TESTU PERRONA DO BADANIA PUNKTÓW ZWROTNYCH INDEKSÓW GIEŁDOWYCH: WIG, WIG20, MIDWIG I TECHWIG

Analiza szeregów czasowych w Gretlu (zajęcia 8)

imei 1. Cel ćwiczenia 2. Zagadnienia do przygotowania 3. Program ćwiczenia

Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Inżynierii Systemów Sterowania. Podstawy Automatyki

Porównanie jakości nieliniowych modeli ekonometrycznych na podstawie testów trafności prognoz

Copyright by Politechnika Białostocka, Białystok 2017

PREDYKCJA KURSU EURO/DOLAR Z WYKORZYSTANIEM PROGNOZ INDEKSU GIEŁDOWEGO: WYBRANE MODELE EKONOMETRYCZNE I PERCEPTRON WIELOWARSTWOWY

Magdalena Osińska, Marcin Fałdziński Uniwersytet Mikołaja Kopernika w Toruniu. Modele GARCH i SV z zastosowaniem teorii wartości ekstremalnych

Wygładzanie metodą średnich ruchomych w procesach stałych

Natalia Iwaszczuk, Piotr Drygaś, Piotr Pusz, Radosław Pusz PROGNOZOWANIE GOSPODARCZE

Metody badania wpływu zmian kursu walutowego na wskaźnik inflacji

Krzysztof Piontek Akademia Ekonomiczna we Wrocławiu. Modelowanie warunkowej kurtozy oraz skośności w finansowych szeregach czasowych

Wyzwania praktyczne w modelowaniu wielowymiarowych procesów GARCH

Wykorzystanie wielorównaniowych modeli AR-GARCH w pomiarze ryzyka metodą VaR

Modelowanie i analiza szeregów czasowych

Magdalena Sokalska Szkoła Główna Handlowa. Modelowanie zmienności stóp zwrotu danych finansowych o wysokiej częstotliwości

PROGNOZOWANIE I SYMULACJE. mgr Żaneta Pruska. Ćwiczenia 2 Zadanie 1

Akademia Ekonomiczna im. Oskara Langego we Wrocławiu Katedra Inwestycji Finansowych i Ubezpieczeń

Zastosowanie sztucznych sieci neuronowych do prognozowania szeregów czasowych

Integracja zmiennych Zmienna y

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB X - ELECTRE TRI

dr inż. MARCIN MAŁACHOWSKI Instytut Technik Innowacyjnych EMAG

STATYSTYCZNA WERYFIKACJA MODELU CAPM NA PRZYKŁADZIE POLSKIEGO RYNKU KAPITAŁOWEGO WPROWADZENIE METODOLOGIA TESTOWANIA MODELU

KRZYSZTOF JAJUGA Katedra Inwestycji Finansowych i Zarządzania Ryzykiem Akademia Ekonomiczna we Wrocławiu 25 LAT EKONOMETRII FINANSOWEJ

ZASTOSOWANIE METODY OBLICZEŃ UPROSZCZONYCH DO WYZNACZANIA CZASU JAZDY POCIĄGU NA SZLAKU

ŹRÓDŁA FLUKTUACJI REALNEGO EFEKTYWNEGO KURSU EUR/ PLN

WYKORZYSTANIE TEORII CHAOSU ZDETERMINOWANEGO W PROGNOZOWANIU KROKOWYM ROCZNEGO ZUŻYCIA ENERGII ELEKTRYCZNEJ PRZEZ ODBIORCÓW WIEJSKICH

Analiza i Zarządzanie Portfelem cz. 6 R = Ocena wyników zarządzania portfelem. Pomiar wyników zarządzania portfelem. Dr Katarzyna Kuziak

VII. ZAGADNIENIA DYNAMIKI

Badanie funktorów logicznych TTL - ćwiczenie 1

Daniel Papla Akademia Ekonomiczna we Wrocławiu. Wykorzystanie modelu DCC-MGARCH w analizie zmian zależności wybranych akcji GPW w Warszawie

1.1. Bezpośrednie transformowanie napięć przemiennych

Transkrypt:

Sudia Ekonomiczne. Zeszyy Naukowe Uniwersyeu Ekonomicznego w Kaowicach ISSN 2083-8611 Nr 265 2016 Uniwersye Ekonomiczny w Kaowicach Wydział Zarządzania Kaedra Analiz Gospodarczych i Finansowych michal.rzesiok@ue.kaowice.pl IDENTYFIKACJA OBSERWACJI ODDALONYCH W SZEREGACH CZASOWYCH Sreszczenie: W arykule uwzględniono różne podejścia do zagadnienia idenyfikacji obserwacji oddalonych: podejście dedykowane dla szeregów czasowych i modeli ARIMA, mierniki sopnia oddalenia obserwacji oraz meody klasyfikacyjne. Celem cząskowym jes zesawienie isniejących meod, ze wskazaniem możliwości pewnych modyfikacji dla polepszenia wyników orzymywanych z prowadzonej diagnosyki. Słowa kluczowe: idenyfikacja obserwacji oddalonych, klasyfikacja, szeregi czasowe. Wprowadzenie Anomalie, akie jak obserwacje odsające czy nagłe zmiany poziomu badanego zjawiska, częso wysępują w rzeczywisych szeregach czasowych [Balke, 1993]. Te szczególne obserwacje wysępują pojedynczo lub worzą krókie ciągi obserwacji i są na ogół wynikiem zaisnienia pewnych wyjąkowych i rzadkich syuacji, akich jak: wojny, kryzysy, srajki, zmiana regulacji prawnych ip. Wysąpienie w szeregu czasowym obserwacji odsających lub skokowych zmian poziomu rodzi wiele problemów w procesie modelowania [Chang, Tiao i Chen, 1988]. Niezależnie bowiem od ego jak bardzo wyrafinowana meoda zosanie wykorzysana do zbudowania modelu, jakość ego modelu zależy wpros od jakości danych. Przyczyny wysąpienia obserwacji odsających w szeregu czasowym mogą być różnego ypu, podobnie jak i same obserwacje odsające mogą różnić się pod względem charakeru i konsekwencji dla dalszego sposobu analizy. Wprawdzie rozwija się dynamicznie obszar meod odpornych, kóre nie wymagają specjal-

96 nego rakowania danych zawierających obserwacje nieypowe, lecz szczególnie dla szeregów czasowych ema idenyfikacji obserwacji odsających jes związany z pozyskiwaniem dodakowej, cennej wiedzy o analizowanym zjawisku i pozosaje zagadnieniem ważnym i akualnym. W lieraurze zagadnienie idenyfikacji obserwacji odsających jes opisywane w różnych koneksach i z ego względu wysępuje pod wieloma nazwami: wykrywanie anomalii, punków zwronych, nadużyć/oszusw czy nieypowych zachowań, prognozowanie bankrucwa (oulier deecion, anomaly/even/novely/ /change poin/faul/misuse deecion). Samo pojęcie obserwacji odsającej również nie jes definiowane jednoznacznie. W niniejszej pracy posłużono się dosyć ogólną definicją zaczerpnięą z pracy Hawkinsa [1980], kóry przez obserwację odsającą rozumie aką obserwację, kóra odchyla się ak bardzo od innych obserwacji, że rodzi o przypuszczenie, że powsała w wyniku działania innego mechanizmu. Meody wykorzysywane do idenyfikacji obserwacji odsających są bardzo różnorodne i pochodzą z odmiennych działów meodologii badań saysycznych, gdyż wśród nich znajdują się zarówno meody dyskryminacyjne, aksonomiczne, esymacji funkcji gęsości czy wizualizacji danych, jak i również przewarzania sygnałów. Pierwsze rozległe prace badawcze n. idenyfikacji obserwacji odsających pojawiły się w laach 70. XX w. i nadal są rozwijane [Fox, 1972; Barne i Lewis, 1978; Hawkins, 1980; Tsay, 1986, Chen i Liu, 1993, Rousseeuw i Leroy 2003]. Przyoczona definicja obserwacji odsającej jes bardzo ogólna i można ją uszczegółowić podając kilka ypów obserwacji odsających. Dla szeregów przekrojowych wyróżnia się rzy rodzaje obserwacji odsających: 1) obserwacje nieypowe (ouliers), w kórych wyróżniona jes zmienna objaśniana Y i warość ej zmiennej znacząco odchyla się od warości dla innych obserwacji; 2) obserwacje wysokiej dźwigni (lub dźwigniowe; leverage), w kórych warość przynajmniej jednej ze zmiennych objaśniających (X) znacząco odchyla się od warości ej zmiennej dla innych obserwacji; 3) obserwacje wpływowe (influenial observaions), kórych wyłączenie ze zbioru danych powoduje isoną zmianę modelu [Rousseeuw i Leroy, 2003]. Uwzględniając specyfikę danych w posaci szeregów czasowych wyróżnia się nieco inne czery ypy obserwacji odsających: a) pojedyncza obserwacja odsająca (AO Addiive Oulier), b) obserwacja odsająca z nasępswami (IO Innovaion Oulier), c) zmiana poziomu (LS Level Shif), d) zmiana przejściowa (TC Temporary Change) [Fox, 1972; Chen i Liu, 1993].

Idenyfikacja obserwacji oddalonych w szeregach czasowych 97 Zamias przedsawiać formalne definicje przyoczonych czerech ypów obserwacji odsających, zilusrowano je na rys. 1. a) pojedyncza obserwacja odsająca b) obserwacja odsająca z nasępswami c) zmiana poziomu d) zmiana przejściowa Rys. 1. Ilusracja czerech ypów obserwacji odsających w szeregach czasowych Źródło: Na podsawie [Rousseeuw i Leroy, 2003, rys. 6, s. 276]. Celem niniejszego arykułu jes przedsawienie rzech różnych meod idenyfikacji obserwacji odsających, zesawienie ich własności i zilusrowanie na przykładzie danych rzeczywisych. 1. Wybrane meody idenyfikacji obserwacji odsających w szeregach czasowych 1.1. Meoda Chena i Liu, dedykowana dla modeli ARIMA Załóżmy, że dany jes pewien sacjonarny proces { x } posaci: x ( x x,, x ; ε, ε, K, ε ) + ε, = f 1, 2 p 1 2 s 2 gdzie ε ~ N(0, σ ), {1,2, K, n}. K (1) Przyjmujemy, że dane empiryczne o pewien obserwowany proces {y } z zaburzeniem w momencie q [Baaglia i Orfei, 2005], przy czym dla pojedynczej obserwacji odsającej (AO) w momencie q (1 < q < n), proces {y } można zapisać z wykorzysaniem dely Kroneckera:

98 y = x 1, dla = q, + ω qδ, q, gdzie δ, q = (2) 0, dla q, zaś dla obserwacji odsającej z nasępswami (IO) proces {y } można wyrazić jako: y ( y y,, y ; η, η, K, η ) + η, η = ε + ω δ. = f 1, 2 p 1 2 s q, q K (3) Zakładamy przy ym, że wielkość ω q jes nieznana (nazywana wielkością odchylenia obserwacji odsającej). Idenyfikacja obserwacji odsających meodą Chena i Liu odbywa się według procedury ieracyjnej obejmującej rzy kroki przedsawione w abeli 1. Tabela 1. Ieracyjna procedura idenyfikacji obserwacji odsających w meodzie Chena i Liu Krok 1 Przeprowadź esymację paramerów modelu ARIMA dla procesu {y } Mając dane paramery modelu z kroku 1, załóż, że w każdym momencie q wysąpiła obserwacja odsająca y Krok 2 q i oszacuj dla niej wielkość odchylenia ω q. Jeśli wielkość a przekracza usaloną warość progową (np. 3,5 SE, gdzie SE o błąd sandardowy), o przyjmij, że jes o obserwacja odsająca i przejdź do kroku 3 Usuń efek wysąpienia obserwacji odsającej przez odjęcie od y q oszacowanej wielkości Krok 3 odchylenia ω q i skoryguj wszyskie kolejne obserwacje zgodnie z modelem zbudowanym w kroku 1 i powróć do kroku 2 W przypadku zidenyfikowania pewnej obserwacji w momencie q* jako obserwacji odsającej, zachowanie kolejnych obserwacji i wielkość ewenualnego odchylenia dla ych obserwacji decyduje o ym, jakiego ypu obserwacją odsającą jes y q*. Przedsawiona meoda Chena i Liu zosanie zesawiona z dwiema innymi, nieco bardziej uniwersalnymi meodami idenyfikowania obserwacji odsających. Jedną z ych meod jes znana z wielowymiarowej analizy regresji meoda wykorzysująca odległość Mahalonobisa. 1.2. Meoda wykorzysująca odległość Mahalanobisa Przede wszyskim w ekonomerii sosuje się meody idenyfikacji obserwacji oddalonych wykorzysujące kryerium bazujące na odległości Mahalonobisa [Healy, 1968]: gdzie 2 ˆ 1 MD ( x) = ( x μˆ ) Σ ( x μˆ), (4) μ ˆ = x jes warością przecięną, a T Σ ˆ = 1 ( x ˆ ˆ ) n 1 i μ) ( xi μ macierzą wariancji i kowariancji. n i= 1

Idenyfikacja obserwacji oddalonych w szeregach czasowych 99 Ze względu na podkreślenie ogólności omawianej meody pozosawiono oryginalny zapis macierzowy miary Mahalanobisa (przypadek regresji wielorakiej), choć oczywiście w syuacji sosowania jej do szeregów czasowych mamy przypadek jednowymiarowy. Idenyfikacja obserwacji odsających odbywa się przez porównanie kwadrau odległości Mahalanobisa dla każdej obserwacji z warościami kryycznymi odczyanymi z rozkładu χ2. W przypadku wysąpienia dużych różnic (na przyjęym poziomie isoności) daną obserwację rakuje się jako odsającą. To podejście ma jednak ę podsawową wadę, że warość samego kryerium (4) w bezpośredni sposób zależy od klasycznych saysyk, kóre są bardzo wrażliwe na wysępowanie warości oddalonych. W celu wyeliminowania ej wady zaproponowano modyfikacje wyliczania warości miernika (4) poprzez zasąpienie średniej μˆ przez odporny paramer położenia. Jedna z propozycji o wykorzysanie esymaora MVE (Minimum Volume Ellipsoid Esimaor), j. esymaora o minimalnej objęości elipsoidy [Rousseeuw, 1984]. Druga z propozycji o wyznaczenie parameru położenia μˆ we wzorze (4), wykorzysując esymaor o minimalnym wyznaczniku macierzy kowariancji (MCD Minimum Covariance Deerminan Esimaor) [Rousseeuw, 1984]. Trzecie podejście zasugerowane w pracy [Filzmoser, Maronna, Werner, 2008] wykorzysuje analizę głównych składowych i idenyfikuje obserwacje oddalone właśnie po przekszałceniu wszyskich obserwacji w przesrzeń głównych składowych, przez wyznaczenie w ej przesrzeni warości kwadrau odległości Mahalanobisa. Nadmienić należy, że w ym podejściu wykorzysuje się nieco zmodyfikowany, odporny warian meody głównych składowych, w kórym na eapie przygoowania danych do analizy wysępuje sandaryzacja zmiennych z wykorzysaniem mediany jako parameru położenia oraz MAD, czyli medianowego odchylenia bezwzględnego, jako parameru rozproszenia. Po zasosowaniu akiej sandaryzacji, obliczanie odległości euklidesowej w przesrzeni głównych składowych jes równoważne obliczaniu odpornego warianu odległości Mahalanobisa. W części empirycznej ego arykułu wykorzysano właśnie ów rzeci warian, j. meodę MD*, oparą na odległości Mahalanobisa z poprawkami zaproponowanymi przez Filzmosera, Maronnę i Wernera [2008] (idenyfikacja obserwacji odsających w przesrzeni głównych składowych). 1.3. Meoda SVM idenyfikacji obserwacji odsających Trzecia z porównywanych meod idenyfikacji obserwacji odsających należy do nowej generacji saysycznych meod auomaycznego uczenia się. Meoda wekorów nośnych SVM (Suppor Vecor Machines) ma wiele warianów, kóre można wykorzysać do różnych zagadnień (w dyskryminacji, regresji, ak-

100 sonomii). Jeden z warianów meody SVM pozwala na wyznaczenie uogólnionego wielowymiarowego kwanyla rozkładu generującego dane z analizowanego zbioru. Przez uogólniony kwanyl rozkładu należy rozumieć aki obszar Q R k wielowymiarowej przesrzeni danych, w kórym z jednej srony niemal wszyskie obserwacje wygenerowane z rozkładu należą do Q, a z drugiej niemal wszyskie obieky niepochodzące z rozkładu generującego dane należą do dopełnienia zbioru Q. Podobnie jak o było w meodzie bazującej na odległości Mahalanobisa, meoda a oryginalnie zosała zaproponowana do rozwiązywania problemów w wielowymiarowych przesrzeniach danych, ale można również wykorzysać ją w przypadku jednowymiarowym (dla szeregu czasowego). Szczegółowy opis meody SVM zasosowanej do wyznaczania uogólnionego kwanyla rozkładu znaleźć można w pracach [Ben-Hur i in., 2001; Trzęsiok, 2007]. W ym miejscu ograniczono opis meody do podania jej głównej idei. Mianowicie, poprzez wykorzysanie pewnej wybranej funkcji jądrowej, określającej nieliniowe przekszałcenie przesrzeni danych, sandardową echnikę sosowaną w meodzie wekorów nośnych, poszukiwanie rozwiązania problemu zosaje przeniesione w przesrzeń Z o znacznie większym wymiarze i w ej nowej przesrzeni wyznaczana jes opymalna hiperkula, zawierająca obrazy obserwacji ze zbioru uczącego. Poszukiwana jes hiperkula o najmniejszym możliwym promieniu, zw. hiperkula Czebyszewa. Tej hiperkuli w przesrzeni Z odpowiada (jako przeciwobraz) pewien zbiór w pierwonej przesrzeni danych. Jes nim poszukiwany uogólniony kwanyl Q. Ze względu na uelasycznienie meody, na wypadek wysąpienia w zbiorze danych poencjalnych błędów pomiaru lub obserwacji nieypowych, wyznaczona hiperkula Czebyszewa nie musi zawierać obrazów wszyskich obserwacji z analizowanego zbioru danych. Obieky, kóre znalazły się poza ą hiperkulą, można ławo zidenyfikować. Są o obserwacje, kóre znajdują się poza uogólnionym kwanylem rozkładu i poencjalnie pochodzą z innego rozkładu, czyli mogą zosać porakowane jako obserwacje odsające. Przy wykorzysywaniu meody SVM do modelowania użykownik musi podać warości dwóch paramerów (γ paramer funkcji jądrowej Gaussa oraz paramer regularyzacji v [0,1], określający kompromis między dopasowaniem modelu a jego zdolnością do uogólniania [por. Trzęsiok, 2008]). Wybór warości ych paramerów ma kluczowe znaczenie dla liczby obserwacji zidenyfikowanych jako odsające. W badaniach empirycznych przedsawionych w dalszej części arykułu wybrano sraegię, w kórej zbudowano wiele modeli SVM idenyfikujących obserwacje odsające przy różnych kombinacjach obu kluczowych paramerów, a osaecznie uznano za odsające ylko e obserwacje, kóre co najmniej dwukronie orzymały akie wskazanie (przez przynajmniej dwa modele ze zbioru modeli SVM).

Idenyfikacja obserwacji oddalonych w szeregach czasowych 101 2. Ilusracja i porównanie wyników działania przedsawionych meod Przedsawione meody idenyfikacji obserwacji odsających w szeregach czasowych zosaną zilusrowane na zbiorze danych rzeczywisych Nile wykorzysywanym do badania i porównywania własności meod saysycznego modelowania dla szeregów czasowych. Dane w zbiorze Nile doyczą przepływu wody w Nilu w okolicach Asuanu (dane w [m 3 /s] od 1871 r. do 1970 r.). Dane z analizowanego szeregu czasowego przedsawiono na rys. 2. Rys. 2. Przepływ wód Nilu w okolicach Asuanu Wszyskie obliczenia zosały zrealizowane z wykorzysaniem programu saysycznego R i jego dodakowych pakieów [souliers, mvoulier, e1071 oraz własnych funkcji i procedur napisanych w języku programu R]. W pierwszej kolejności przysąpiono do zidenyfikowania obserwacji odsających meodą Chena i Liu [1993], dedykowaną dla szeregów czasowych. Z powodu prawosronnej asymerii rozkładu przepływu wód Nilu (zesandaryzowany momen cenralny rzeciego rzędu równy 0,318) poddano analizie dane zlogarymowane. Sprawdzono sacjonarność szeregu rozszerzonym esem Dickeya Fullera (esem ADF) z hipoezą alernaywną posaci badany szereg jes sacjonarny. Obliczenia wskazały, że na poziomie isoności α = 0,05 należy odrzucić hipoezę zerową na rzecz alernaywnej, czyli badany szereg ma własność sacjonarności [warość saysyki Dickeya Fullera = 3,3657, przy rzędzie opóźnienia równym 4, prawdopodobieńswo esowe p-value = 0,04724]. Nie było więc porzeby wykorzysania operacji różnicowania szeregu czasowego. W dalszej części przeprowadzono idenyfikację obserwacji odsających meodą Chena i Liu orzymując wyniki przedsawione w abeli 2 i zaznaczono na rys. 3.

102 Tabela 2. Obserwacje odsające zidenyfikowane meodą Chena i Liu Lp. Rok Typ obserwacji odsającej 1 1877 pojedyncza obserwacja odsająca (AO; na rys. 3: ) 2 1899 zmiana poziomu (LS; na rys. 3: ) 3 1908 ymczasowa zmiana (TC; na rys. 3: ) 4 1913 pojedyncza obserwacja odsająca (AO; na rys. 3: ) 5 1916 ymczasowa zmiana (TC; na rys. 3: ) Rys. 3. Przepływ wód Nilu w okolicach Asuanu z zaznaczonymi obserwacjami odsającymi zidenyfikowanymi meodami: Chena i Liu (symbole wypełnione), SVM (kwadray puse), wykorzysującą odległość Mahalanobisa (gwiazdki) Wyniki idenyfikacji obserwacji odsających meodą wykorzysującą odległość Mahalonobisa oraz meodą SVM przedsawiono w abeli 3 oraz na rys. 3. Tabela 3. Obserwacje odsające zidenyfikowane meodą wykorzysującą odległość Mahalanobisa (MD*) oraz meodą SVM Lp. Meoda MD* Meoda SVM 1 1879 (na rys. 3: ) 1871 (na rys. 3: ) 2 1913 (na rys. 3: ) 1877 (na rys. 3: ) 3 1879 (na rys. 3: ) 4 1913 (na rys. 3: ) 5 1964 (na rys. 3: ) Wygenerowane zbiory obserwacji odsających różnią się dla każdej z meod. Można zauważyć, że ylko jedna obserwacja (z roku 1913) zosała zidenyfikowana jako odsająca przez wszyskie rzy przedsawione meody. Syuacja a jes jednak zgodna z inuicją, gdyż meody e wykorzysują bardzo różniące się

Idenyfikacja obserwacji oddalonych w szeregach czasowych 103 podejścia zarówno pod względem rakowania ego, czym jes obserwacja odsająca, jak i przesrzeni, w kórej są one poszukiwane, czy eż samej meodologii. Podsumowanie Przedsawiono i zilusrowano na przykładzie danych rzeczywisych rzy meody idenyfikacji obserwacji odsających dla szeregów czasowych. Przedsawione meody znacząco różnią się w sposobie rozwiązania posawionego problemu, a w konsekwencji również wyznaczają odmienne zbiory obserwacji odsających. Dedykowana dla szeregów czasowych meoda Chena i Liu ma najmniejszy zakres sosowalności, gdyż jes ściśle związana z konkrenym ypem modelowania szeregów czasowych i wymaga spełnienia najbardziej resrykcyjnych założeń. Ma jednak zdecydowaną przewagę nad pozosałymi dwiema meodami w ym, że nie ylko idenyfikuje czy dana obserwacja jes odsająca czy nie, ale również wskazuje yp obserwacji odsającej, co jes bardzo cenną, dodakową wiedzą pozyskaną o badanym zjawisku. Meoda wykorzysująca odległość Mahalanobisa jes uniwersalna i nadaje się do idenyfikowania obserwacji odsających nie ylko w szeregach czasowych, ale również w wielowymiarowych danych przekrojowych. Wydaje się jednak, że meoda a porafi dla szeregów czasowych zidenyfikować ylko pojedyncze obserwacje odsające. Meoda a raczej nie radzi sobie z wykryciem anomalii ypu zmiana poziomu lub ymczasowa zmiana. Dla szeregów czasowych o znaczących flukuacjach meoda a generuje albo bardzo liczny zbiór obserwacji odsających, kóry wymaga użycia dodakowych heurysyk do odfilrowania ych najważniejszych, albo zbiór obserwacji odsających jes mało liczny i są o wyłącznie wyraźnie odsające pojedyncze obserwacje odsające (ławe do zidenyfikowania również przez wizualizację szeregu czasowego). Meoda SVM jes najbardziej elasyczną z przedsawionych meod. Nie nakłada niemal żadnych założeń na badany szereg czasowy. Mechanizm działania ej meody ma jednak charaker czarnej skrzynki, przez co rudno jakkolwiek inerpreować i zesawiać wyniki działania ej meody z wynikami innych meod idenyfikacji obserwacji odsających. Podobnie jak meoda MD* meoda SVM wykrywa głównie pojedyncze obserwacje odsające. Każda z przedsawionych meod w nieco odmienny sposób wykrywa anomalie w szeregu czasowym. Nie można jednoznacznie ocenić, kóra z meod lepiej nadaje się do ego celu, bo sam problem idenyfikacji obserwacji odsają-

104 cych nie ma jednoznacznego rozwiązania. W przypadku braku jednoznaczności rozwiązania dobrze jes zapoznać się z wynikami analizy z wykorzysaniem meod różniących się podejściem. Daje o analiykowi więcej wiedzy o badanym zjawisku i pozwala na lepsze dososowanie dalszej procedury badawczej do rozparywanego problemu. Lieraura Balke N.S. (1993), Deecing Level Shifs in Time Series, Journal of Business & Economic Saisics, Vol. 11(1), s. 81-92. Barne V., Lewis T. (1978), Ouliers in Saisical Daa, John Wiley & Sons, New York. Baaglia F., Orfei L. (2005), Oulier Deecion and Esimaion in Nonlinear Time Series, Journal of Time Series Analysis, Vol. 26(1), s. 107-121. Ben-Hur A., Horn D., Siegelman H.T., Vapnik V. (2001), Suppor Vecor Clusering, Journal of Machine Learning Research, Vol. 2, s. 125-137. Chang I., Tiao G.C., Chen C. (1988). Esimaion of Time Series Parameers in he Presence of Ouliers, Technomerics, Vol. 30(2), s. 193-204. Chen C., Liu L.M. (1993), Join Esimaion of Model Parameers and Oulier Effecs in Time Series, Journal of he American Saisical Associaion, Vol. 88(421), s. 284-297. Filzmoser P., Maronna R.A., Werner M. (2008), Oulier Idenificaion in High Dimensions, Compuaional Saisics & Daa Analysis, Vol. 52, s. 1694-1711. Fox A.J. (1972), Ouliers in Time Series, Journal of he Royal Saisical Sociey. Series B (Mehodological), s. 350-363. Hawkins D. (1980), Idenificaion of Ouliers, Chapman and Hall, London New York. Healy M.J.R. (1968), Mulivariae Normal Ploing, Applied Saisics, Vol. 17, s. 157-161. Rousseeuw P.J. (1984), Leas Median of Squares Regression, Journal of he American Saisical Associaion, Vol. 79, s. 871-880. Rousseeuw P.J., Leroy A.M. (2003), Robus Regression and Oulier Deecion, John Wiley & Sons, New York. Trzęsiok M. (2007), Idenyfikacja obserwacji oddalonych z wykorzysaniem meody wekorów nośnych [w:] K. Jajuga, M. Walesiak (red.), Taksonomia 14. Klasyfikacja i analiza danych eoria i zasosowania, Prace Naukowe, nr 1169, Wydawnicwo Akademii Ekonomicznej, Wrocław, s. 350-357. Trzęsiok M. (2008), Wybór warości paramerów przez walidację wyników klasyfikacji aksonomicznej meody wekorów nośnych [w:] K. Jajuga, M. Walesiak (red.), Taksonomia 15. Klasyfikacja i analiza danych eoria i zasosowania, Prace Naukowe, nr 7 (1207), Wydawnicwo Uniwersyeu Ekonomicznego, Wrocław, s. 354-363. Tsay R.S. (1986), Time Series Model Specificaion in he Presence of Ouliers, Journal of he American Saisical Associaion, Vol. 81(393), s. 132-141.

Idenyfikacja obserwacji oddalonych w szeregach czasowych 105 DETECTION OF OUTLIERS IN TIME SERIES Summary: The paper presens hree differen mehods for deecing anomalies in ime series. The firs one is dedicaed for ime series analysis and ARIMA models. Two oher wo come from very differen background: one is associaed wih measuring he disance from he given observaion o he remaining objecs in daase. The oher one belongs o he family of classificaion mehods wihin machine learning framework. The goal of he paper is o presen, compare and illusrae hese hree differen approaches on a real world daase. Keywords: ouliers deecion, classificaion, ime series.