Transformaty w klasyfikacji szeregów czasowych

Podobne dokumenty
Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

Zastosowanie sieci neuronowych w problemie klasyfikacji wielokategorialnej. Adam Żychowski

Agnieszka Nowak Brzezińska Wykład III

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Agnieszka Nowak Brzezińska

Testowanie hipotez statystycznych

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Analiza wariancji - ANOVA

Testy nieparametryczne

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Elementy modelowania matematycznego

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Elementy statystyki STA - Wykład 5

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Hierarchiczna analiza skupień

Autoreferat. dr Tomasz Górecki. Uniwersytet im. Adama Mickiewicza Wydział Matematyki i Informatyki

2. Empiryczna wersja klasyfikatora bayesowskiego

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Autoreferat. dr Maciej Łuczak Wydział Inżynierii Lądowej, Środowiska i Geodezji Politechnika Koszalińska Koszalin, 2018

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

5. Model sezonowości i autoregresji zmiennej prognozowanej

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Metodologia badań psychologicznych. Wykład 12. Korelacje

Egzamin ustny z matematyki semestr II Zakres wymaganych wiadomości i umiejętności

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

KORELACJE I REGRESJA LINIOWA

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

166 Wstęp do statystyki matematycznej

Luty 2001 Algorytmy (4) 2000/2001

Mateusz Kobos Seminarium z Metod Inteligencji Obliczeniowej, MiNI PW

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Hipotezy statystyczne

9. Praktyczna ocena jakości klasyfikacji

Hipotezy statystyczne

Testy post-hoc. Wrocław, 6 czerwca 2016

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Skalowanie wielowymiarowe idea

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Wydział Matematyki. Testy zgodności. Wykład 03

Poziom istotności i granica rozsądku - problem porównań wielokrotnych w badaniach naukowych

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Adrian Horzyk

IMPLEMENTACJA SIECI NEURONOWYCH MLP Z WALIDACJĄ KRZYŻOWĄ

( ) Arkusz I Zadanie 1. Wartość bezwzględna Rozwiąż równanie. Naszkicujmy wykresy funkcji f ( x) = x + 3 oraz g ( x) 2x

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

10. Redukcja wymiaru - metoda PCA

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Publiczna Szkoła Podstawowa nr 14 w Opolu. Edukacyjna Wartość Dodana

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Testowanie hipotez statystycznych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

X Y 4,0 3,3 8,0 6,8 12,0 11,0 16,0 15,2 20,0 18,9

Wprowadzenie do analizy korelacji i regresji

7. Maszyny wektorów podpierajacych SVMs

Algorytm SAT. Marek Zając Zabrania się rozpowszechniania całości lub fragmentów niniejszego tekstu bez podania nazwiska jego autora.

Analiza wariancji. dr Janusz Górczyński

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Analiza wariancji i kowariancji

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Weryfikacja hipotez statystycznych

Metody Obliczeniowe w Nauce i Technice

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Algorytmy genetyczne w interpolacji wielomianowej

Estymacja parametrów modeli liniowych oraz ocena jakości dopasowania modeli do danych empirycznych

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

TEORETYCZNE PODSTAWY INFORMATYKI

Testowanie modeli predykcyjnych

Optymalizacja ciągła

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

METODY INŻYNIERII WIEDZY

WYKŁAD 10. kodem pierwotnym krzywej jest ciąg par współrzędnych x, y kolejnych punktów krzywej: (x 1, y 1 ), (x 2, y 2 ),...

8. Neuron z ciągłą funkcją aktywacji.

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Pattern Classification

Jednoczynnikowa analiza wariancji

EGZAMIN MATURALNY Z MATEMATYKI

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Zadanie 1. Analiza Analiza rozkładu

Hybrydowa analiza transformat w rozpoznawaniu wysokości dźwięków w polifonicznych nagraniach instrumentów muzycznych

Statystyka Matematyczna Anna Janicka

R-PEARSONA Zależność liniowa

Transkrypt:

Transformaty w klasyfikacji szeregów czasowych Tomasz Górecki Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXVIII Konferencja Statystyka Matematyczna Wisła 3-7.12.2012 T. Górecki (UAM) 5.12.2012 1/ 9

Wprowadzenie Klasyfikacja szeregów czasowych jest w ostatnim czasie intensywnie rozwijana. Stosowane są w tym celu bardzo różne podejścia. Od sieci neuronowych i bayesowskich do algorytmów genetycznych i metody SVM. Równocześnie wprowadzane są nieustannie nowe miary badające podobieństwo szeregów czasowych(doskonały przegląd takich metod znajduje się w pracy Dinga i innych(2008)). Niemniej jednak okazuje się, że w większości przypadków najlepsze wyniki klasyfikacji uzyskuje się korzystając z metody najbliższego sąsiada(1nn) jako klasyfikatora oraz odległości DTW(dynamic time warping) jako miary odległości pomiędzy dwoma szeregami. T. Górecki (UAM) 5.12.2012 2/ 9

Wprowadzenie DTW jest klasyczną już miarą odległości doskonale sprawdzającą się w klasyfikacji szeregów czasowych. Pozwala ona na znalezienie najmniejszej odległości między dwoma szeregami czasowymi przy dopuszczeniu nieliniowej transformacji czasu dla obu szeregów. Jest bardziej odpowiednia niż odległość euklidesowa szczególnie w sytuacji gdy porównujemy szeregi o podobnej strukturze, ale przesunięte w czasie. Pozwala na znalezienie najmniejszej odległości między dwoma szeregami czasowymi przy dopuszczeniu przesunięć w czasie dla obu szeregów. Algorytm ten radzi sobie również w przypadku braku części danych lub ich niedokładności. Najważniejsza jest tutaj kolejność występowania poszczególnych faz szeregu czy sygnału. T. Górecki (UAM) 5.12.2012 2/ 9

Wprowadzenie Oczywiście w przypadku klasyfikacji szeregów czasowych wydaje się, że jedynie ich punktowe porównanie może być niewystarczające. Zdarzają się przypadki, w których przypisanie do jednej z klas zależy nie tylko od wartości funkcji, ale również od ich kształtu. W szczególności zmienność w czasie powinna mieć duży wpływ na proces klasyfikacji. T. Górecki (UAM) 5.12.2012 2/ 9

Wprowadzenie Wiadomo, że w matematyce za zmienność funkcji w czasie odpowiada pochodna funkcji, która określa gdzie funkcja rośnie, maleje względnie jest stała. Pochodna określa ogólny kształt funkcji, pokazuje co się dzieje w pewnym sąsiedztwie punktu. W kontekście szeregów czasowych oznacza to, że pochodna określa zachowanie się szeregu czasowego przed i po pewnym punkcie czasowym. T. Górecki (UAM) 5.12.2012 2/ 9

Wprowadzenie Wydaje się, że takie podejście do klasyfikacji może być bardzo skuteczne. Nie oczekujmy jednak, że wystarczy porównać jedynie pochodne. W większości przypadków duże znaczenie ma również porównanie odległości pomiędzy szeregami, a nie tylko pomiędzy ich pochodnymi. W takiej sytuacji optymalne wydaje się uwzględnienie obu odległości. Wkład każdej z odległości powinien być ustalony doświadczalnie dla konkretnego zbioru danych. T. Górecki (UAM) 5.12.2012 2/ 9

Wprowadzenie Wykorzystanie pochodnych do klasyfikacji szeregów czasowych zostało zaproponowane przez Keogha i Pazzaniego(2001). Nazwali oni swoją metodę Derivative Dynamic Time Warping(DDTW). W poprzedniej pracy (Górecki, Łuczak(2012a)) zaproponowana została poprawka ich metody uwzględniająca parametryzację wkładu składowych na miarę odległości. Jak się okazało dała ona doskonałe wyniki. Zachęciło to nas do poszukiwania kolejnych modyfikacji. Oczywistym krokiem jest dodanie kolejnej pochodnej jako trzeciej składowej odległości, oczywiście również w postaci sparametryzowanej. Podczas gdy pierwsza pochodna daje informację o monotoniczności funkcji, druga dodaje informacje o jej wypukłości. Wyniki nie są już tak spektakularne, ale wciąż uzyskuje się istotną redukcję błędu klasyfikacji(górecki, Łuczak(2012b)). T. Górecki (UAM) 5.12.2012 2/ 9

Wprowadzenie Dodawanie kolejnych pochodnych wydaje się niecelowe, ponieważ jak pokazują badania, druga pochodna dodaje już stosunkowo niewiele informacji o odległości pomiędzy szeregami. Trzeba zatem szukać innej klasy funkcji. Wybór padł na bardzo popularne w klasyfikacji szeregów czasowych transformaty. Były one jednak do tej pory wykorzystywane w celu redukcji wymiarowości danych bez straty informacji. My natomiast chcemy dodać je jako kolejną składową miary odległości pomiędzy szeregami czasowymi. Ostatecznie zdecydowaliśmy się na trzy transformaty: sinusową, kosinusową oraz Hilberta. Oczywiście podobnie jak poprzednio nie należy sądzić, że wystarczy porównać jedynie odległość pomiędzy transformatami. Naturalnym wydaje się dodanie transformaty jako kolejnego elementu poprawiającego precyzję klasyfikacji. Podobnie jak poprzednio zostało użyte podejście parametryczne, które pozwala dobrać wpływ każdej odległości na końcową miarę odległości pomiędzy szeregami, a w konsekwencji na jakość klasyfikacji. T. Górecki (UAM) 5.12.2012 2/ 9

Transformaty Dlaszereguczasowego f = {f(i): i =1,2,...,n}określamytransformatę jako ˆf = {ˆf(k): k =1,2,...,n}. Transformata kosinusowa: n [ ( π ˆf(k) = f(i)cos i 1 ) ] (k 1) n 2 i=1 Transformata sinusowa: ˆf(k) = n i=1 [ ( π f(i)sin i 1 ) ] k n 2 Transformata Hilberta: ˆf(k) = n i=1 i k f(i) k i T. Górecki (UAM) 5.12.2012 3/ 9

Miara odległości Jeśli dist jest miarą odległości pomiędzy dwoma szeregami czasowymi f i g,nowamiaraodległości dist abc mapostać dist abc (f,g) := adist(f,g)+bdist(f,g )+cdist(ˆf,ĝ), gdzie f, g sądyskretnymipochodnymiszeregów f, g; ˆf, ĝsą transformatamioraz a,b,c [0,1]sąparametrami. Dyskretna pochodna szeregu czasowego f o długości n ma postać f (i) = f(i) f(i 1), i =2,3,...,n gdzie f jestszeregiemczasowymodługości n 1. Parametry a,b,csąwybieranewfazieuczenia. T. Górecki (UAM) 5.12.2012 4/ 9

Przestrzeń parametrów Nie musimy sprawdzać wszystkich możliwych wartości parametrówa,b,c [0,1].Jeśli a 1 = ka 2, b 1 = kb 2, c 1 = kc 2 gdzie k >0 jeststałą(tzn.punkty (a 1,b 1,c 1 ), (a 2,b 2,c 2 )sąliniowozależne),mamy dist a1 b 1 c 1 (f 1,g 1 ) = < > dista1 b 1 c 1 (f 2,g 2 ) dist a2 b 2 c 2 (f 1,g 1 ) = < > dista2 b 2 c 2 (f 2,g 2 ) Zatem możemy wybrać punkty (a, b, c) z dowolnej ciągłej powierzchni pomiędzypunktami A = (1,0,0), B = (0,1,0),oraz C = (0,0,1).Naten przykład może to być powierzchnia trójkąta o wierzchołkach w tych punktach lub ósma część sfery. Dla prostoty wybierany jest trójkąt. Ten 3D trójkąt jest rzutowany na trójkąt 2D o wierzchołkach w punktach A = (0,0), B = (1,0)iC = ( 1 2, 3 2 ). T. Górecki (UAM) 5.12.2012 5/ 9

T. Górecki (UAM) 5.12.2012 5/ 9 Przestrzeń parametrów Oba trójkąty mogą być zdefiniowane w sposób parametryczny następująco: (a,b,c) = A+α AB +β AC, (a,b ) = A +α A B +β A C, gdzie (a,b,c)sąpunktamitrójkąta3d,natomiast (a,b )sąpunktami trójkąta2doraz α [0,1],β [0,1 α]sąparametrami.

Ograniczenie dolne oraz nierówność trójkąta Jeśli low jest dolnym ograniczeniem odległości dist, wtedy low abc (f,g) = alow(f,g)+blow(f,g )+clow(ˆf,ĝ) jestdolnymograniczeniemodległości dist abc. Jeślibazowaodległośćdistjestmetryką,wtedynowaodległość distjest również metryką. Jeśli dist nie jest metryką, ale spełnia nierówność trójkąta,toodległość distrównieżspełnianierównośćtrójkąta dist abc (f,g) dist abc (f,h)+ dist abc (h,g). T. Górecki (UAM) 5.12.2012 6/ 9

Przebieg doświadczenia Zostały wykonane obliczenia na 43 szeregach czasowych. Dane zostały zaczerpnięte z bazy UCR Time Series Classification/Clustering Homepage (Keoghiinni(2011)).Badanebyłytrzymiaryodległości:DTD S DTW, DTD C DTW orazdtdh DTW.Dlakażdegozbiorudanychobliczonyzostał błąd klasyfikacji na zbiorze testowym. Podczas konstrukcji modelu (uczenia) wykorzystany był zbiór uczący. W celu znalezienia optymalnych wartości parametrów wykorzystana została metoda sprawdzania krzyżowego(leave-one-out). Jeśli minimalny błąd został osiągnięty dla kilku różnych par parametrów wybierana była najmniejsza para (minimalizacja najpierw po α potem po β). Parametry poszukiwane były z przedziałuod0do1zkrokiem0.01. T. Górecki (UAM) 5.12.2012 7/ 9

Wyniki Tabela: Błędy względne na zbiorze testowym. DD DTW DTW DTW DTD C DTW DTW DTW DTD S DTW DTW DTW DTD H DTW DTW DTW -19.11-23.18-23.04-19.97 Widzimy, że wszystkie proponowane metody dają redukcję względnego błędu klasyfikacji w porównaniu z klasyczną metodą DTW. Największą redukcjęotrzymujemywprzypadkumetodydtd C DTW T. Górecki (UAM) 5.12.2012 8/ 9

Wyniki C DD DTW vs DTD DTW C DTD DTW error 0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.1 0.2 0.3 0.4 0.5 0.6 DD DTW error T. Górecki (UAM) 5.12.2012 8/ 9

Wyniki S DD DTW vs DTD DTW S DTD DTW error 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.0 0.1 0.2 0.3 0.4 0.5 0.6 DD DTW error T. Górecki (UAM) 5.12.2012 8/ 9

Wyniki H DD DTW vs DTD DTW H DTD DTW error 0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.1 0.2 0.3 0.4 0.5 0.6 DD DTW error T. Górecki (UAM) 5.12.2012 8/ 9

Wyniki Oczywiście bardzo ciekawą kwestią jest, czy istnieją pewne uniwersalne wartości współczynników określających udział poszczególnych składowych w finalnej mierze odległości. Niestety odpowiedź na to pytanie jest negatywna, co ilustrują poniższe rysunki. T. Górecki (UAM) 5.12.2012 8/ 9

Wyniki Widzimy, że udział poszczególnych składowych jest bardzo różny dla różnych konfiguracji zbiorów i metod. T. Górecki (UAM) 5.12.2012 8/ 9

Wyniki W celu weryfikacji statystycznej istotności chcemy przetestować hipotezę zerową, która mówi, że wszystkie metody zachowują się tak samo, a zaobserwowane różnice są jedynie dziełem przypadku. W tym celu użyta została wersja testu F opracowana przez Imana i Davenporta(1980), który jest nieparametrycznym testem ANOVA. Pod uwagę brane są wszystkie 43 zbiory danych oraz 5 metod klasyfikacji. Otrzymana p-wartość jest bliska 0. Z tego powodu odrzucamy hipotezę zerową, czyli analizowane klasyfikatory różnią się istotnie. Zatem możemy zastosować test post-hoc w celu wykrycia, które klasyfikatory istotnie różnią się jakością klasyfikacji. Kiedy używamy testów post-hoc, aby zachować poziom istotności całej procedury musimy zastosować jedną z wielu metod korekty poziomu istotności. Doskonała synteza tych metod znajduje się w pracy Garci i Herrery(2008). Pokazują oni, że pomimo dużej złożoności obliczeniowej dynamiczna procedura Bergmanna i Hommela(1988) ma największą moc. Dodatkowo szybki algorytm(hommel, Bernhard(1994)) pozwala istotnie zredukować czas obliczeń. T. Górecki (UAM) 5.12.2012 8/ 9

Wyniki Tabela: Wyniki testu post-hoc Bergmanna-Hommela. Procedura Średnie rangi DTDDTW C 2.49 * DTDDTW S 2.58 * DTDDTW H 2.69 * DD DTW 2.98 * DTW 4.27 * W wyniku przeprowadzenia powyższej procedury uzyskano dwie rozłączne grupy klasyfikatorów. W jednej jest metoda DTW, natomiast w drugiej, lepszej są wszystkie pozostałe metody. Daje to istotny dowód wyższości proponowanych metod nad klasyczną metodą DTW. T. Górecki (UAM) 5.12.2012 8/ 9

Bibliografia Bergmann, G., Hommel, G.(1988). Improvements of general multiple test procedures for redundant systems of hypotheses, in P. Bauer, G. Hommel and E. Sonnemann(Eds),Multiple Hypotheses Testing, Springer, pp. 110 115. Ding, H., Trajcevski, G., Scheuermann, P., Wang, X. and Keogh, E. (2008). Querying and Mining of Time Series Data: Experimental Comparison of Representations and Distance Measures. In Proc. 34th Int. Conf. on Very Large Data Bases, 1542 1552. Garcia, S., Herrera, F.(2008). An extension on statistical comparisons of classifiers over multiple data sets for all pairwise comparisons. Journal of Machine Learning Research 9: 2677 2694. Górecki, T., Łuczak, M.(2012a). Using derivatives in time series classification. Data Mining and Knowledge Discovery, Doi: 10.1007/s10618-012-0251-4. T. Górecki (UAM) 5.12.2012 9/ 9

Bibliografia Górecki, T., Łuczak, M.(2012b). First and second derivative in time series classification using DTW. Under review. Hommel, G., Bernhard, G.(1994). A rapid algorithm and a computer program for multiple test procedures using logical structures of hypotheses. Computer Methods and Programs in Biomedicine 43(3-4): 213 6. Keogh, E., Pazzani, M.(2001). Dynamic Time Warping with Higher Order Features. In First SIAM International Conference on Data Mining(SDM 2001), Chicago, USA. Keogh,E.,Zhu,Q.,Hu,B.,Hao.Y.,Xi,X.,Wei,L.& Ratanamahatana, C. A.(2011). The UCR Time Series Classification/Clustering Homepage: http://www.cs.ucr.edu/~eamonn/time_series_data/ T. Górecki (UAM) 5.12.2012 9/ 9