Autoreferat dr Tomasz Górecki Uniwersytet im. Adama Mickiewicza Wydział Matematyki i Informatyki Poznań, 2014
1. Życiorys naukowy 1. Imię i nazwisko: Tomasz Górecki 2. Dyplomy i stopnie naukowe: Doktor nauk matematycznych w zakresie matematyki: 2005; Uniwersytet im. Adama Mickiewicza, Wydział Matematyki i Informatyki; Tytuł rozprawy: Sekwencyjna analiza dyskryminacyjna; Promotor: prof. dr hab. Mirosław Krzyśko. Magister matematyki(matematyka stosowana): 2001; Uniwersytet im. Adama Mickiewicza, Wydział Matematyki i Informatyki; Tytuł pracy: Analiza dyskryminacyjna; Promotor: prof. dr hab. Mirosław Krzyśko. Licencjat z informatyki 2000; Uniwersytet im. Adama Mickiewicza, Wydział Matematyki i Informatyki. 3. Informacje o dotychczasowym zatrudnieniu: 2005-: adiunkt na Wydziale Matematyki i Informatyki UAM, 2001-2005: doktorant na Wydziale Matematyki i Informatyki UAM, 2002-2011: wykładowca/informatyk w Poznańskiej Wyższej Szkole Biznesu, 2011-: wykładowca w Poznańskiej Wyższej Szkole Biznesu, 2012-: informatyk w Poznańskich Zakładach Sprzętu Ortopedycznego. 4. Osiągnięcienaukowe,októrymmowawart.16ust.2ustawyzdnia 14marca2003rokuostopniachnaukowychitytulenaukowymorazo stopniachitytulewzakresiesztuki(dz.u.nr65,poz.595,zpóźn.zm.): Jednotematyczny cykl 6 publikacji pod wspólnym tytułem: Klasyfikacja szeregów czasowych z wykorzystaniem pochodnych i transformat. 2. Działalność naukowa 2.1. Jednotematyczny cykl publikacji Jako osiągnięcie naukowe stanowiące podstawę starania się o uzyskanie stopnia doktora habilitowanego, zgodnie z art. 16 ust. 2 ustawy o stopniach naukowych i tytulenaukowymorazostopniachitytulewzakresiesztukizdnia14marca2003r.(z późniejszymi uzupełnieniami), przedstawiam jednotematyczny cykl publikacji pod zbiorczym tytułem Klasyfikacja szeregów czasowych z wykorzystaniem pochodnych i transformat. Dla pism umieszczonych na liście JCR podano ich impact factor(if) oraz pięcioletni IF(5yearIF) z roku ukazania się publikacji, a także liczbę punktów zgodnie z wykazem Ministerstwa Nauki i Szkolnictwa Wyższego(MNiSW) z17grudnia2013r.wprzypadkupracopublikowanychwroku2014i2015podano najbardziej aktualne wartości IF oraz 5yearIF. Szczegółowy opis dokonań autorów 2
przedstawiono w oświadczeniach załączonych w postaci oddzielnego dokumentu. IF publikacji przedstawionych w ramach cyklu wynosi 9.250, sumaryczny 5yearIF 9.257, a sumaryczna liczba punktów według aktualnej listy MNiSW 155. Na ten cykl składają się następujące pozycje: [A1] T. Górecki(2012). Two parametrical derivative dynamic time warping. In: Data analysis methods and its applications(eds. J. Pociecha, R. Decker). C.H. Beck 31-40. [A2] T. Górecki, M. Łuczak(2013). Using derivatives in time series classification. Data Mining and Knowledge Discovery 26(2):310-331. IF/5IF: 2.877/2.164, MNiSW: Lista A(40pkt) [A3] T. Górecki, M. Łuczak(2014). First and second derivative in time series classification using DTW. Communications in Statistics- Simulation and Computation 43(9):2081-2092. IF/5IF: 0.288/0.453, MNiSW: Lista A(15pkt) [A4] T. Górecki, M. Łuczak(2014). Non-isometric transforms in time series classification using DTW. Knowledge-Based Systems 61:98-108. IF/5IF: 3.058/2.920, MNiSW: Lista A(40pkt) [A5] T. Górecki(2014). Using derivatives in a longest common subsequence dissimilarity measure for time series classification. Pattern Recognition Letters 45C:99-105. IF/5IF: 1.062/1.466, MNiSW: Lista A(25pkt) [A6] T. Górecki, M. Łuczak(2015). Multivariate time series classification with parametric derivative dynamic time warping, Expert Systems With Applications 42(5):2305-2312. IF/5IF: 1.965/2.254, MNiSW: Lista A(35pkt) 2.2. Temat badań, motywacja i znaczenie osiągniętych wyników Ilość dostępnych i powstających szeregów czasowych gwałtownie rośnie w ostatnich latach. Dotyczy to między innymi takich zastosowań jak: prognozowanie sprzedaży, prognozowanie kursów giełdowych, prognoza plonów, kontrola jakości, badania użyteczności, badania demograficzne, iwiele,wieleinnych. W związku z tym powstaje dużo prac naukowych zajmujących się badaniem i analizą szeregów czasowych, których specyficzna struktura wymaga modyfikacji istniejących metod lub konstrukcji zupełnie nowych. Dane takie są zazwyczaj wysoko wymiarowe i charakteryzują się nieodłączną korelacją pomiędzy poszczególnymi zmiennymi. W szczególności dla takich danych kluczowe jest odpowiednie zdefiniowanie odległości pomiędzy poszczególnymi obserwacjami(trajektoriami). W analizie szeregów czasowych można wyróżnić trzy odmienne podejścia: 1. Wybór części zmiennych do dalszej analizy, 2. Zmiana reprezentacji danych np. podejście funkcjonalne, transformaty(dyskretna transformata Fouriera, dyskretna transformata kosinusowa), 3
3. Praca na oryginalnych danych, ale ze sprytnie pomyślaną miarą odległości. Właśnie to ostatnie podejście stało się głównym tematem moich badań. Bodźcem do podjęcia tej tematyki stała się praca[c9], w której autorzy konkludują, że do klasyfikacji szeregów czasowych najlepiej nadaje się metoda najbliższego sąsiada z odległością DTW jako odległością pomiędzy szeregami. Właśnie klasyfikacja oraz analiza skupień stały się w ostatnich latach obiektem ogromnego zainteresowania społeczności zajmującej się szeregami czasowymi, w szczególności bazami danych. W celu klasyfikacji danych stosowane są bardzo różne podejścia. Od sieci neuronowych i bayesowskich do algorytmów genetycznych i metody SVM. Równocześnie wprowadzane są nieustannie nowe miary badające podobieństwo szeregów czasowych. Oczywistym powodem tego zainteresowania stały się możliwości komputerowe analizy ogromnych zbiorów danych, które jeszcze kilka/kilkanaście lat temu jawiły się jako niemożliwe do analizy. Ta niemożność analizy, oprócz wielkości danych, spowodowana była również czasochłonnością używanych algorytmów. Dotyczy to zwłaszcza algorytmu DTW, który uważany jest za najlepszy do wyznaczania odległości pomiędzy szeregami. W ostatnich latach powstało jednak kilka implementacji(sparsedtw, FastDTW) oraz technik(ograniczenia dolne: LB Keogh, LB Improved), które znacznie go przyspieszyły. Celem moich prac była poprawa jakości klasyfikacji za pomocą metody najbliższego sąsiada z wykorzystaniem kombinacji odległości DTW na oryginalnych danych oraz odległości DTW na pewnych transformacjach danych oryginalnych. Jako inne reprezentacje danych rozważane były pochodne(pierwsza i druga) oraz transformaty(sinusowa, kosinusowa, Hilberta). Równocześnie tematem moich badań było wykorzystanie opracowanej techniki dla innych odległości np. LCSS. Wszystkie algorytmy musiały się również charakteryzować dobrą wydajnością obliczeniową. Dodatkowo celem było zachowanie dolnego ograniczenia, jeśli takie istniało dla odległości bazowej. To również zostało osiągnięte(dodatkowo zachowana została również nierówność trójkąta, która przydaje się podczas indeksowania szeregów czasowych). W ostatnim czasie powiodło się również uogólnienie zaproponowanej metody na szeregi wielowymiarowe. Za swój wkład w rozwój dyscypliny uważam: upowszechnienie wiedzy o możliwości wykorzystania pochodnych i transformat w liczeniu odległości pomiędzy szeregami, wprowadzenie parametrycznej wersji odległości DTW wykorzystującej oprócz surowych danych również pochodne i transformaty, wprowadzenie parametrycznej wersji odległości LCSS wykorzystującej oprócz surowych danych również pochodne, wprowadzenie pochodnych do liczenia odległości DTW dla szeregów wielowymiarowych. 2.3. Uzyskane wyniki Szereg czasowy to sekwencja obserwacji, które uporządkowane są w czasie lub w przestrzeni(c[11]). Dla prostoty i bez straty ogólności założymy na razie, że czas jest dyskretny.formalnie,szeregczasowytosekwencjapart = [(f 1,t 1 ),(f 2,t 2 ),...,(f n,t n )] (t 1 < t 2 <... < t n ),gdziekażdy f i jestpunktemwd-wymiarowejprzestrzeni,akażdy 4
momentczasowy t i jestchwilą,wktórejzaszedł f i.jeślimomentyczasowedwóchszeregów są takie same, możemy je ominąć i rozważać jedynie sekwencje d-wymiarowych punktów. Taka reprezentacja jest nazywana surową. Liczba punktów n w szeregu czasowym jest nazywana jego długością. Na razie skupimy się na szeregach jednowymiarowych,któreoznaczymy f i, i = 1,2,...,n. Klasyfikacja szeregów czasowych jest w ostatnim czasie intensywnie rozwijana. Wprowadzane są nieustannie nowe miary badające podobieństwo szeregów czasowych(c[9]). Niemniej jednak okazuje się, że w większości przypadków najlepsze wyniki klasyfikacji uzyskuje się korzystając z metody najbliższego sąsiada(1nn) jako klasyfikatora oraz odległości 1 DTW(ang.dynamictimewarping)jakomiaryodległościpomiędzydwoma szeregami. Pierwotnie DTW było wykorzystywane do porównywania wzorców wymowy w automatycznym rozpoznawaniu mowy(c[10]). Jest to metoda, która wyznacza odległość pomiędzy dwoma szeregami czasowymi, przy czym dopuszczamy pewne transformacje czasu. Aby znaleźć odległość DTW wpierw konstruujemy macierz, której element (i,j)odpowiadaodległości d(f i,g j ).Odległośćtanazywanajestodległościąwewnętrzną i najczęściej jest to odległość euklidesowa lub taksówkowa. Następnie poszukujemy minimalnej skumulowanej odległości przechodząc przez tę macierz. Odległość DTW odpowiada ścieżce o minimalnym koszcie: DTW(f,g) = min W K w k, gdzie w k jestelementemmacierzykosztów,którynależydościeżki W.Ścieżka Wjest zbiorem elementów macierzy odległości, która definiuje odwzorowanie pomiędzy f i g. Ścieżkę tę konstruujemy przy trzech dodatkowych warunkach: w 1 = (1,1)oraz w K = (n,n)(warunkibrzegowe,dopasowanieniejestwykonanena fragmentach szeregów), Dla w k = (a,b)iw k 1 = (a,b ), a a 1ib b 1(ciągłość,żadnepunktynie są pomijane), Dla w k = (a,b)iw k 1 = (a,b ), a a 0ib b 0(monotoniczność,podobne fragmenty są łączone tylko raz). Aby wyznaczyć taką ścieżkę używamy programowania dynamicznego, w którym wykorzystywane jest następujące równanie rekurencyjne: k=1 γ(i,j) = d(f i,g j )+min{γ(i 1,j 1),γ(i 1,j),γ(i,j 1)}, gdzie d(f i,g j )jestodległościąwdanejkomórce,aγ(i,j)jestskumulowanąodległością d(f i,g j )orazminimumztrzechprzyległychskumulowanychodległości(rysunek1). DTWjestalgorytmemozłożoności O(n 2 ).Jesttodośćpoważneograniczenie, zwłaszcza dla dużych zbiorów danych. Najprostszą metodą przyspieszenia obliczeń jest wyznaczenie jedynie pewnej niedużej frakcji elementów macierzy kosztów. Intuicyjnie, 1 Niejesttoodległośćwsensieczystomatematycznym.Niejestspełnionywarunektrójkąta.W literaturze przedmiotu jednak najczęściej mówi się o takich miarach jak o odległościach. Właściwie są to miary niepodobieństwa. 5
Rys. 1. Górny lewy: Dwa podobne szeregi czasowe, przesunięte jedynie w czasie dają dużą odległość euklidesową. Dolny lewy: Można to poprawić poprzez nieliniowe wyrównanie za pomocą DTW. Prawy: Macierz kosztów wraz ze ścieżką W(R szerokość pasma Sakoe-Chiby). chcemy aby ścieżka W była stosunkowo blisko przekątnej macierzy. Do najpopularniejszych należą: pasmo Sakoe-Chiby(C[24]), równoległobok Itakury(C[25]) i pasmo Ratanamahatana-Keogha(C[26]). Najprostszym i najpopularniejszym jest to pierwsze, które wykorzystaliśmy np. w pracy A[3]. Szerokość pasma jest zazwyczaj ustalana na 10%. Jednakże ostatnio(c[27]) pokazano, że dopasowanie szerokości okna do danych oprócz przyspieszenia obliczeń może również prowadzić do poprawy jakości klasyfikacji. Oczywiście w przypadku klasyfikacji szeregów czasowych wydaje się, że jedynie ich punktowe porównanie może być niewystarczające. Zdarzają się przypadki, w których przypisanie do jednej z klas zależy nie tylko od wartości funkcji, ale również od ich kształtu. W szczególności zmienność w czasie powinna mieć duży wpływ na proces klasyfikacji. Wiadomo, że za zmienność funkcji w czasie odpowiada pochodna funkcji, która określa gdzie funkcja rośnie, maleje względnie jest stała. Naturalnym jest zatem wykorzystanie pochodnych do klasyfikacji(c[12]). Wydaje się, że takie podejście do klasyfikacji może być bardzo skuteczne. Nie oczekujmy jednak, że wystarczy porównać jedynie pochodne. W większości przypadków duże znaczenie ma również porównanie odległości pomiędzy szeregami, a nie tylko pomiędzy ich pochodnymi. W takiej sytuacji optymalne wydaje się uwzględnienie obu odległości. Wkład każdej z odległości powinien być ustalony doświadczalnie dla konkretnego zbioru danych. Pierwsze moje wynikinatentematukazałysięwpracya[1].byłytojednakjedyniewstępnewyniki uwzględniające zaledwie 12 zbiorów danych. Uzyskane wyniki były na tyle obiecujące, że powstała kolejna praca A[2], dużo bardziej rozbudowana i poruszająca dodatkowe aspekty, które nie były analizowane w pracy 6
A[1]. Została zaproponowana odległość będąca połączeniem odległości na oryginalnym szeregu oraz na szeregu złożonym z pochodnych. Definicja1.Jeżeli djestmiarąodległościdlaszeregów foraz g,toodległość ˆd ab jest zdefiniowana następująco: ˆd ab (f,g) := a d(f,g)+b d(f,g ), (1) gdzie f oraz g sądyskretnymipochodnymiszeregów fi goraz a,b [0,1]sąrzeczywistymi parametrami. Definicja 2. Dyskretna pochodna szeregu czasowego f o długości n ma postać f (i) = f(i) f(i 1), i = 2,3,...,n gdzie f jestszeregiemczasowymodługości n 1. W pracy A[2] analizowane były również dwie inne definicje dyskretnej pochodnej dość powszechnie spotykane w literaturze. Badania pokazały, że wybór dyskretnej pochodnej nie ma statystycznego wpływu na jakość klasyfikacji. W pracy A[2] analizowane byłydwieodległości d: DTWorazodległośćeuklidesowa(ED).Odległość ˆd ab została użytadoklasyfikacjizapomocąmetody1nn,metodytakieoznaczymy DD DTW oraz DD ED.Parametry a,bzostaływybranepodczasprocesuuczeniazapomocąmetody sprawdzania krzyżowego(ang. cross validation leave one out). Zauważmy, że nie musimysprawdzaćwszystkichwartościparametrów a,b [0,1].Jeśli a 1 = ca 2 oraz b 1 = cb 2, gdzie c > 0jeststałą(tzn.punkty (a 1,b 1 ), (a 2,b 2 )sąliniowozależne),mamy ˆd a1 b 1 (f 1,g 1 ) = < > ˆda1 b 1 (f 2,g 2 ) ˆd a2 b 2 (f 1,g 1 ) = < > ˆda2 b 2 (f 2,g 2 ). Możemy zatem wybrać punkty (a, b) na dowolnej ciągłej linii pomiędzy punktami (0, 1) i (1,0).Np.możetobyćliniaprostalubćwiartkaokręgu a = (1 α), b = α, α [0,1]; a = cosα, b = sinα, α [ 0, π 2]. W tym drugim przypadku mamy równe odległości pomiędzy parametrami(rysunek 2). Ta parametryzacja wydaje się właściwsza do badań naukowych. Jednakże, jeśli zbiór parametrów α jest dostatecznie gęsty wybór parametryzacji nie powinien mieć większego wpływu na wyniki. Dla wielu miar odległości można znaleźć tzw. dolne ograniczenie(ang. lower bound). Funkcja to może być następnie wykorzystana do znacznego przyspieszenia obliczeń. Okazuje się, że zaproponowana miara odległości zachowuje ograniczenie dolne o ile miara d je posiadała. Twierdzenie 1. Jeśli l jest ograniczeniem dolnym miary odległości d, to ˆlab (f,g) := a l(f,g)+b l(f,g ) (2) jestograniczeniemdolnymmiaryodległości ˆd ab. 7
Rys.2.Zależnośćparametrów a, boraz α. Podobnie wygląda sprawa z nierównością trójkąta(ogólnie z metryką) A[2]. W celu oceny jakości klasyfikacji za pomocą zaproponowanej metody przeprowadzonosymulacjena20zbiorachdanych 2 pochodzącychzbazyucr(c[13]).każdy zbiór stamtąd pochodzący został przez autorów repozytorium podzielny na uczący i testowy. Na zbiorze uczącym znalezione zostały parametry a, b. Zbiór testowy posłużył natomiast do zbadania efektywności tak znalezionych parametrów. W przypadku odległości ED zaproponowana metoda dała redukcję średniego błędu względnego na poziomie 4.58%, natomiast w przypadku DTW ta redukcja była znacznie większa i wyniosła aż 21.58%. Dla większości zbiorów danych nastąpiła redukcja błędu(rysunek 3). Pozostaje jeszcze jedno istotne pytanie. Czy można znaleźć pewną uniwersalną Rys. 3. Porównanie błędów na zbiorze testowym. wagę, dobrą dla wszystkich zbiorów danych, która określi z jaką siłą pochodna powinna wejść do miary odległości? Niestety odpowiedź na to pytanie jest negatywna. Udział ten może być znikomy, bardzo duży, lub przeciętny(rysunek 4). Zostały również wykonane badania symulacyjne porównujące zaproponowaną metodę z innymi metodami, które opierają się również na pochodnych. Analiza statystyczna pokazała, że zaproponowana metoda jest istotnie lepsza(na poziomie istotności α = 0.05) od wszystkich porównywanych metod. 2 Tylkotylebyłodostępnychwmomenciepowstawaniapracy. 8
Rys.4.Zależnośćbłęduklasyfikacjiodparametru αdlametody DD DTW (liniakropkowana błąd CV na zbiorze uczącym, linia ciągła błąd na zbiorze testowym). Ponieważ zaproponowana metoda okazała się bardzo efektywna w procesie klasyfikacji podjęte zostały dalsze próby rozwoju idei łączenia odległości. Naturalnym krokiem wydaje się dodanie kolejnej pochodnej. Jak wiemy pierwsza pochodna opisuje monotoniczność funkcji, natomiast druga decyduje o wypukłości. Kombinacja zatem trzech elementów powinna zadziałać jeszcze lepiej niż kombinacja dwóch elementów. Podejście to zostało omówione w pracy A[3]. Definicja3.Jeżeli djestmiarąodległościdlaszeregów foraz g,toodległość ˆd abc jest zdefiniowana następująco: ˆd abc (f,g) := a d(f,g)+b d(f,g )+c d(f,g ), (3) gdzie f, g, f, g sądyskretnymipochodnymiszeregów fi goraz a,b,c [0,1]są rzeczywistymi parametrami. Ponownie jak wcześniej nie musimy badać wszystkich wartości parametrów a, b, c [0,1].Jeśli a 1 = ka 2, b 1 = kb 2, c 1 = kc 2 gdzie k > 0jeststałą(tzn.punkty (a 1,b 1,c 1 ), (a 2,b 2,c 2 )sąliniowozależne),mamy ˆd a1 b 1 c 1 (f 1,g 1 ) = < > ˆda1 b 1 c 1 (f 2,g 2 ) ˆd a2 b 2 c 2 (f 1,g 1 ) = < > ˆda2 b 2 c 2 (f 2,g 2 ). Stąd możemy wybrać punkty (a, b, c) na dowolnej ciągłej powierzchni pomiędzy punktami A = (1,0,0), B = (0,1,0)oraz C = (0,0,1).Możetobyćnp.powierzchnia trójkąta o wierzchołkach w tych punktach lub 1/8 sfery. Dla prostoty został wybrany trójkąt. Ten trójkąt 3D jest rzutowany na trójkąt 2D o wierzchołkach w punktach A = (0,0), B = (1,0)oraz C = ( 1 2, 3 2 ).Obatrójkątymożnazdefiniowaćwsposób parametryczny: (a,b,c) = A+α AB +βac, (a,b ) = A +α A B +β A C, gdzie (a,b,c)sąpunktamitrójkąta 3D,a(a,b )sąpunktamitrójkąta 2Doraz α,β [0, 1] są parametrami(rysunek 5). Zachodzą analogiczne własności dla ograniczenia 9
Rys.5.Zależnośćparametrów 3D a,b,corazparametrów 2D a,b. dolnego i nierówności trójkąta jak dla miary odległości opisanej w pracy A[2]. W celu oceny jakości zaproponowanej metody wykonano symulacje na wszystkich 47 zbiorach danych pochodzących z repozytorium UCR(C[13]). Nastąpiła pewna poprawa, aczkolwiek już nie tak spektakularna. Niestety analogicznie jak poprzednio nie da się ustalić uniwersalnych wag(parametrów) Rysunek 6. Dodawanie kolejnych pochodnych wydaje się niecelowe, ponieważ jak pokazują badania, druga pochodna dodaje już stosunkowo niewiele informacji o odległości pomiędzy szeregami. Trzeba zatem szukać innej klasy funkcji. Temat ten poruszony został w pracy A[4]. Wybór padł na popularne w klasyfikacji szeregów czasowych transformaty. Były one jednak do tej pory wykorzystywane w celu redukcji wymiarowości danych bez straty informacji(c[21]). My natomiast chcemy dodać je jako kolejną składową miary odległości pomiędzy szeregami czasowymi. Ostatecznie zdecydowaliśmy się na trzy transformaty: sinusową, kosinusową oraz Hilberta. Definicja4.Dlaszereguczasowego f = {f(i): i = 1,2,...,n}określamytransformatę jako ˆf = {ˆf(k): k = 1,2,...,n}. Transformata kosinusowa: ˆf(k) = n i=1 [ ( π f(i)cos i 1 ) ] (k 1) n 2 Transformata sinusowa: ˆf(k) = n i=1 [ ( π f(i)sin i 1 ) ] k n 2 Transformata Hilberta: ˆf(k) = n i=1 i k f(i) k i 10
Rys. 6. Zależność błędu klasyfikacji od parametrów(od lewej: zbiór danych 50words, adiac, wafer.) Oczywiście podobnie jak poprzednio nie należy sądzić, że wystarczy porównać jedynie odległość pomiędzy transformatami. Naturalnym wydaje się dodanie transformaty jako kolejnego elementu poprawiającego precyzję klasyfikacji. Podobnie jak poprzednio zostało użyte podejście parametryczne, które pozwala dobrać wpływ każdej odległości na końcową miarę odległości pomiędzy szeregami, a w konsekwencji na jakość klasyfikacji. Definicja5.Jeżeli djestmiarąodległościdlaszeregów foraz g,toodległość d abc jest zdefiniowana następująco: d abc (f,g) := a d(f,g)+b d(f,g )+c d(ˆf,ĝ), (4) gdzie f, g sądyskretnymipochodnymiszeregów fi g; ˆfi ĝsątransformatamioraz a,b,c [0,1]sąrzeczywistymiparametrami. Jeśli użyjemy konkretnej transformaty otrzymamy trzy metody oznaczane jako: DTD S DTW, DTDC DTW, DTDH DTW.Oczywiściewszystkiepoprzednieuwagidotyczące ograniczeniadolnegooraznierównościtrójkątaprzenosząsięrównieżna d abc (f,g). Kwestia poszukiwania parametrów wygląda tak samo jak w opisanej poprzednio wersji odległości z pierwszą i drugą pochodną(a[3]). Ponownie zostały wykonane badania symulacyjne na 47 zbiorach danych z repozytorium UCR(C[13]). Wszystkie zaproponowane metody(dodające jako trzeci składnik odległości odległość pomiędzy transformatami) dały średnio lepsze wyniki niż dodanie jedynie samej pochodnej(tabela 1). 11
Tab. 1. Błędy względne na zbiorze testowym. DD DTW DTW DTW DTD C DTW DTW DTW DTD S DTW DTW DTW DTD H DTW DTW DTW -19.03-24.85-22.97-19.75 Dodatkowo zaproponowane metody działają lepiej dla prawie wszystkich zbiorów danych(rysunek 7). error C DTD DTW 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 C DD DTW vs. DTD DTW C DTD DTW Better Here 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 DD DTW error error S DTD DTW 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 S DD DTW vs. DTD DTW S DTD DTW Better Here 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 DD DTW error error H DTD DTW 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 H DD DTW vs. DTD DTW H DTD DTW Better Here 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 DD DTW error Rys.7.Porównaniebłędówtestowych(DD DTW vs. DTD DTW). Bardzo ważne jest aby umieć wskazać(mając jedynie zbiór uczący) czy dana metoda klasyfikacji zachowa się dobrze dla konkretnego zbioru danych. W pracy C[14] pojawiła się propozycja rozwiązania tego problemu. Mianowicie zbadajmy wydajność porównywanych metod jedynie na zbiorze uczącym i na tej podstawie wybierzmy algorytm, który użyjemy do klasyfikacji próby testowej. Na zbiorze uczącym badamy skuteczność rozważanych metod klasyfikacji za pomocą metody CV(leave-one-out) i liczymy oczekiwaną zmianę w jakości klasyfikacji jako stosunek skuteczności klasyfikacji na zbiorze testowym dla obu metod. Wartości powyżej jeden wskazują, że oczekujemy iż proponowana metoda okaże się lepsza na tym zbiorze danych. Podobnie na zbiorze testowym wyznaczamy aktualną zmianę jakości klasyfikacji. Wyniki możemy przedstawić na wykresie(rysunek 8) otrzymując cztery regiony: TP W tym regionie leżą punkty, dla których poprawnie przewidzieliśmy poprawę jakości klasyfikacji. TN W tym regionie leżą punkty, dla których poprawnie przewidzieliśmy spadek jakości klasyfikacji. FN W tym regionie leżą punkty, dla których błędnie przewidzieliśmy spadek jakości klasyfikacji. FP Najgorsza sytuacja. W tym regionie leżą punkty, dla których błędnie przewidzieliśmy poprawę jakości klasyfikacji. Ponieważ DTD DTW jestrozszerzeniemmetody DD DTW błądnazbiorzeuczącymjest zawszeniewiększyniżbłądmetody DD DTW.ZatemlewaczęśćRysunku8jestzawsze pusta. Zdecydowana większość punktów leży w obszarze TP, co oznacza, że potrafimydośćdobrzeprzewidziećczymetoda DTD DTW możepoprawićwynikiklasyfikacji. 12
Cosine transform Sine transform Hilbert transform Actual accuracy change 0.85 0.90 0.95 1.00 1.05 1.10 1.15 1.20 FN TN ECG200 MoteStrain TP FP Actual accuracy change 0.85 0.90 0.95 1.00 1.05 1.10 1.15 1.20 FN TN MedicalImages Car TP FP Actual accuracy change 0.85 0.90 0.95 1.00 1.05 1.10 1.15 1.20 FN TN Adiac Beef Car Faceall TP FP 0.9 1.0 1.1 1.2 1.3 1.4 1.5 0.9 1.0 1.1 1.2 1.3 1.4 1.5 0.9 1.0 1.1 1.2 1.3 1.4 1.5 Expected accuracy change Expected accuracy change Expected accuracy change Rys. 8. Oczekiwana zmiana jakości klasyfikacji kontra aktualna zmiana w jakości klasyfikacji. Oczywiście istnieją również zbiory danych dla których metody zachowują się podobnie, leżą one w okolicach punktu(1,1). W celu oceny statystycznej istotności otrzymanych wyników przeprowadzono analizę typu ANOVA. Wykorzystany został test Friedmana w wersji Iman i Davenport(C[15]). Hipoteza zerowa została odrzucona. Zatem metody różnią się istotnie. Jako test post-hoc wykorzystany został test Bergmanna i Hommela (C[16]), który jest rekomendowany jako test o największej mocy w tego typu problemach (C[17]).Okazałosię,żemetoda DTD C DTW jeststatystycznieistotnielepszaodzarówno metody DTWjakimetody DD DTW. Oprócz poszukiwania innych od pochodnych i transformat charakterystyk, które mogą poprawić jakość klasyfikacji możemy również starać się poszukać innych odległości bazowych zamiast powszechnie używanej odległości DTW. Odległość ta jest średnio najlepsza, ale istnieją sytuacje, w których inne odległości mogą okazać się lepsze. Jedną z takich sytuacji jest występowanie obserwacji odstających w danych. Temu scenariuszowi poświęcona jest praca A[5]. Polecaną odległością w takiej sytuacji jest odległość najdłuższy wspólny podciąg (ang. longest common subsequence LCSS). Miara ta jest wariantem miary edycyjnej i jest dość powszechnie używana w rozpoznawaniu mowy. Ogólna pomysł polega na takim powiązaniu dwóch szeregów czasowych, aby umożliwić im rozciągania, ale bez zmiany kolejności elementów. Dopuszczalne jest jednak pominięcie pewnych fragmentów szeregu w przeciwieństwie do ED i DTW gdzie wszystkie elementy muszą być wykorzystane. Definicja6.Niech foraz gbędąszeregamiczasowymiodługościach nim.wtedy 0 dla i = 0 0 dla j = 0 L(i,j) = 1+L[i 1,j 1] dla f i g j < ε oraz i j δ max(l[i 1,j],L[i,j 1]) wp.p. 13
L(n, m) zawiera podobieństwo pomiędzy f i g, ponieważ odpowiada długości l najdłuższego wspólnego podciągu szeregów f i g. Teraz: LCSS(f,g) = n+m 2L(n,m). (5) n+m jest odległością(miarą niepodobieństwa) szeregów f i g. Zgodnieztądefinicjąmiarataprzyjmujewartościzprzedziału [(1 2 min(n,m) n+m ),1]. Dlaszeregóworównejdługościprzyjmujewartościod0do1.Miara LCSSmadwa parametry: δ i ε(rysunek 9). Stała δ, która zazwyczaj jest ustalana jako procent długości szeregu, kontroluje rozmiar okna przy łączeniu szeregów. Określa jak bardzo punktyszeregumogąbyćodległewczasieabymogłybyćpołączone.stała 0 < ε < 1 określa, że dwa punkty szeregów mogą być połączone jeśli ich odległość jest mniejsza niż ε. Rys. 9. Dopasowanie w czasie i przestrzeni za pomocą LCSS. Wszystko poza kopertą ograniczającą nie może być dopasowane. W pracy A[5] zostały zaproponowane miary niepodobieństwa analogiczne do miar (1)i(3).Ztąjedynieróżnicą,żezamiast DTWwykorzystano LCSSjakomiaręwewnętrzną. Badania symulacyjne przeprowadzono na 47 zbiorach danych pochodzących z repozytorium UCR(C[13]). Uzyskane wyniki(tabela 2) pokazują sens poprawienia miary niepodobieństwa LCSS poprzez dodanie informacji pochodzących z zarówno pierwszej jak i z drugiej pochodnej. Tab. 2. Średnie błędy względne(na zbiorze testowym). DD LCSS LCSS LCSS 2DD LCSS LCSS LCSS 2DD LCSS DD LCSS DD LCSS -33.21-37.72-9.72 Przeprowadzona analiza statystyczna uzyskanych wyników potwierdziła, że obie wersje(z pierwszą pochodną jak i z dwiema pierwszymi pochodnymi) są istotnie lepsze od czystej miary niepodobieństwa LCSS w zagadnieniu klasyfikacji z wykorzystaniem metody 1NN. Przeprowadzone zostały również badania mające na celu oceną szybkości działania zaproponowanych metod. Potwierdziły one wcześniejsze przypuszczenia, że 14
główny ciężar obliczeniowy związany jest w wyznaczeniem macierzy odległości. Samo wyliczenie parametrów jest już procedurą szybką lub nawet dla mniejszych zbiorów błyskawiczną. Dla największych zbiorów danych wyznaczenie pojedynczej macierzy odległości zajmowało nieco poniżej 3000 sekund. Wyznaczenie parametrów zajmowało w takiejsytuacji4sekundywprzypadkuwersjiztylkojednąpochodnąi89sekundw przypadku wersji z dwoma pochodnymi(a[5]). Wydaje się, że w sposób naturalny zaproponowana metodologia powinna się przenieść na przypadek szeregów wielowymiarowych. Tak też jest. Uzyskane wyniki ukazały się w pracy A[6], która jest rozszerzeniem pracy A[2] na przypadek szeregów wielowymiarowych. Tematyka szeregów wielowymiarowych jest zdecydowanie mniej popularna ze względu na rozliczne trudności w pracy z takimi danymi. Rozszerzenie odległości DTW na przypadek wielowymiarowy zostało zaproponowane w pracy C[23]. W pracy A[6] zastosowaliśmy nasze podejście parametryczne. Okazuje się, że również w tym przypadku zaproponowana miara zachowuje wszystkie pożądane własności miary wewnętrznej(nierówność trójkąta oraz ograniczenie dolne). Metoda została przetestowana na 18 zbiorach danych pochodzących z wielu źródeł(brak kompleksowego repozytorium wielowymiarowych szeregów czasowych). W każdym zbiorze danych szeregi były różnej długości. Zostały rozszerzone do długości najdłuższego szeregu w danym zbiorze. Wszystkie zmienne zostały rozszerzone do tej samej długości. Krótszy szereg f o długości nzostałrozszerzonydoszeregu godługości n max : g(j) = f(i), dla i = j 1 n max 1 (n 1)+0.5 (j = 1,2,...,n max ). Pewne wartości są powielane w celu rozszerzenia szeregu. Parametry metody zostały znalezione za pomocą metody CV(leave-one-out). Ponieważ jednak nie mamy wydzielonych zbiorów testowych i uczących wykorzystany w tym celu został cały zbiór. Faktyczna ocena błędu została wyznaczona za pomocą metody 10CV. Cały czas używany był klasyfikator 1NN. Uzyskano 9.60% redukcji błędu względnego pomiędzy naszą metodą wykorzystującą odległości pomiędzy szeregami jak i pochodnymi, a oryginalną odległością DTW. Jedynie na 2 zbiorach nastąpiło nieznaczne pogorszenie wyników (Rysunek 10). Aby zbadać statystyczną istotność uzyskanych wyników wykonana został test Wilcoxona, który jest nieparametrycznym odpowiednikiem testu t. Uzyskano w nim p-wartość równą0.02106,coświadczyotym,żemetoda DD DTW jeststatystycznielepszaod metody DTW na poziomie istotności α = 0.05. Wprowadzana miara odległości dla szeregów wielowymiarowych okazała się bardzo obiecująca. Zastosowane podejście parametryczne pozwala połączyć zalety metod składowych, równocześnie eliminując ich wady. Metoda dobrze dostosowuje się do rzeczywistych danych nie wykazując przy tym żadnych oznak nadmiernego dopasowania się do danych. Złożoność obliczeniowa nowej metody jest na podobnym poziomie jak jej poprzedniczek używanych w przypadku klasyfikacji szeregów jednowymiarowych. 15
DD DTW error 0.0 0.1 0.2 0.3 0.4 0.5 DTW vs. DD DTW DD DTW Better Here 0.0 0.1 0.2 0.3 0.4 0.5 DTW error Rys.10.Porównaniebłędów(DTWvs. DD DTW )dlaszeregówwielowymiarowych. 3. Pozostałe wyniki prac naukowych 3.1. Informatyka Praca B[25] dotyczy pewnych metod podobnych do metody najbliższego sąsiada (granicznie). Wydaje się, że na polepszenie wyników klasyfikacji powinno wpłynąć uwzględnienie odległości od wszystkich obiektów uczących oraz uwzględnienie wartości tych odległości. Ważne może być, nie tylko że jeden punkt jest dalej od drugiego, ale także to ile razy dalej się znajduje. Dla obserwacji x liczymy sumę odległości od wszystkich obserwacji z danej klasy: ρ j (x) = 1 n j x i : y i =j 1 x i x α α R +, gdzie αjestnieujemnymparametrem, n j toliczbaobserwacjizklasy j.obserwację x przypisujemy do klasy, dla której ta suma jest największa: d SCα (x) = argmaxρ j (x). j Klasyfikator taki nazwiemy skalarnym(sc). Kolejnym czynnikiem mogącym mieć wpływ na klasyfikację jest uwzględnienie nie tylko odległości ale również kierunków, wzajemnego położenia punktów uczących. Dla obserwacji testowej x wyznaczamy: v j (x) = 1 n j x i : y i =j x i x x i x α+1 α R +. Przyporządkowujemyobiekt xdoklasy,dlaktórejwektor v j (x)jestnajdłuższy: d VCα (x) = argmax v j (x). j 16
Rys. 11. Porównanie obszarów klasyfikacji dla metod 1NN, SC3 oraz VC3 Klasyfikator taki nazwiemy wektorowym(vc). Obie zaproponowane metody zależą od parametru α. Im większy jest parametr tym mniejszy wpływ poszczególnych obserwacji na wynik klasyfikacji. W szczególności jeśli α to wpływ dalszych punków jest coraz mniejszy i ostatecznie na wynik klasyfikacji wpływa jedynie punkt najbliższy. Wynikaztego,żeobiemetodydążądometody1NN(Rysunek11).Metodytezostały przetestowane na 6 zbiorach generowanych oraz 10 rzeczywistych i porównane z metodą 1NN. Okazało się, że na prawie wszystkich zbiorach dają one mniejszą ocenę błędu klasyfikacji. W pracy B[40] został zaproponowany klasyfikator bazujący na klasyfikatorze grawitacyjnym, w którym dodatkowo zastosowano parametr regularyzacji. Ustalmy początkowe położenia punktów, ich masy oraz prędkości startowe w pewnym momencie czasowym. Obiekty te oddziałując na siebie zmieniają swoje położenie zgodnie z prawami mechaniki. Naszym celem jest znalezienie ich położenia w innym momencie czasowym. Aby zaklasyfikować nowy obiekt wkładamy go w pole utworzone przez obiekty uczące. Przypisujemy go do klasy obiektu, który jako pierwszy został uderzony przez obiekt testowy. Obserwacje z próby uczącej odpowiadają ciałom w polu grawitacyjnym. Zakładamy,żemasysątakiesame(m i = 1),akażdypunktjestreprezentowanyprzezkulę opromieniu r(takisamdlawszystkichobiektów)ośrodkuwpunkcie x i wprzestrzeni R p.punktyuczącenieporuszająsię,niemająnasiebiewzajemniewpływu.zakładamy, że intensywność pola nie musi być odwrotnie proporcjonalna do kwadratu odległości, może być to inna funkcja potęgowa. Stąd wektor natężenia ma postać ˆv(x) = G n i=1 x i x x i x α, gdzie α > 1jestparametrem.Abyzaklasyfikowaćobiekt xumieszczamygowpolu grawitacyjnym. Zaczyna się poruszać i w pewnym momencie trafia w jeden z punktów uczących(tzn. w pewnym momencie t jego odległość od jednego z punktów uczących x k jestmniejszaod r).przypisujemygodoklasypunktu x k.musimyzatemrozwiązać układ równań różniczkowych drugiego rzędu(w postaci wektorowej): x (t) = G n j=1 x j x(t) x j x(t) α, 17
gdzie x j R p sąpunktamizpróbyuczącej, x(t)jestpołożeniemobiektutestowego x w chwili t. W celu jego rozwiązania użyta została metoda symulacyjna. Ostatecznie zdecydowaliśmy się na model, w którym obiekty poruszają się ze stałą początkową prędkością. W każdym momencie czasowym zmienia się jedynie kierunek ruchu zgodnie ze zmianami natężenia pola grawitacyjnego. Jeśli parametr α rośnie, maleje wpływ bardziej odległych punktów na natężenie pola. Stąd również w tym przypadku metoda dąży do metody najbliższego sąsiada(rysunek 12). Badania na rzeczywistych zbiorach Rys. 12. Obszary klasyfikacyjne dla różnych wartości parametru α(model II). danych pokazały, że zaproponowana metoda daje mniejszą ocenę błędu klasyfikacji niż porównywana metoda 1NN. Praca B[26] dotyczy metod konstrukcji jąder, które są powszechnie używane w statystyce(analiza skupień, analiza składowych głównych, estymacja funkcji regresji, analiza dyskryminacyjna, sieci neuronowe). Praca zawiera liczne przykłady i wnioski dotyczące metod konstrukcji jąder, również w przypadku wielowymiarowym. Omówiony jest również związek z rozwijaniem funkcji w szereg Taylora. Podobnie omówiony jest związek z funkcjami rozwijalnymi w szereg Legendre a. W monografii C[4] pojawił się pomysł dodawania do cech zbioru uczącego prawdopodobieństw a posteriori. Praca B[36] rozwija tę ideę i dotyczy sekwencyjnego poprawiania klasyfikatorów liniowych: LDA oraz perceptronu. Poprawka ta polega na sekwencyjnym dodawaniu nowych cech do próby uczącej, na której metoda jest uczona. Tymi nowymi cechami są prawdopodobieństwa a posteriori otrzymane za pomocą poprawianych metod. W kolejnych krokach dodajemy nieco inne prawdopodobieństwa, ponieważ metody są uczone na zmienionych danych. W taki sposób otrzymujemy wiele klasyfikatorów tego samego typu uczonych na nieco innych danych. Zaobserwowane cechy są w każdym kro- 18
ku takie same, zmieniają się jedynie dodawane prawdopodobieństwa. W pracy zostały zaproponowane cztery metody dodawania prawdopodobieństw: 1. W każdym kroku zastępujemy poprzednio dodane prawdopodobieństwa ostatnio uzyskanymi. 2. W kolejnych krokach dodawany wektor powstaje jako średnia arytmetyczna prawdopodobieństw z poprzednich kroków. 3. W kolejnych krokach dodawany wektor powstaje jako iloczyn prawdopodobieństw z poprzednich kroków. 4. W kolejnych krokach dodajemy dwa wektory prawdopodobieństw. Te z punku 2. i zpunktu3. W celu zbadania zaproponowanych metod przeprowadzone zostały badania na 20 rzeczywistych zbiorach danych pochodzących z repozytorium Uniwersytetu Kalifornijskiego(C[6]). Błąd klasyfikacji oceniono za pomocą metody bootstrap(100 powtórzeń). Dla obu badanych metod liniowych uzyskano redukcję błędu klasyfikacji dla wszystkich zaproponowanych poprawek. W przypadku metody LDA największą redukcję średniego błędu względnego uzyskano dla metody 4. i wyniosła ona 4.15%. W przypadku perceptronu podobnie największa redukcja nastąpiła dla metody 4. i wyniosła aż 14.53%. Praca B[44] kontynuuje wątki rozpoczęte w pracy B[36]. W tej pracy łączonych jest sekwencyjnie wiele metod klasyfikacji. Zaproponowaną metodę przetestowano na 22 rzeczywistych zbiorach danych(błąd oszacowano za pomocą metody bootstrap). Wyniki pokazały, że uzyskuje się bardzo dużą redukcję średniego błędu względnego. W celu oceny perspektyw zaproponowanych metod do użycia uniwersalnego porównano je z lasami losowymi, które przez wielu uważane są za metodą bardzo uniwersalną. Metoda LDA po zaproponowanej korekcie przewyższa nawet lasy losowe(średnio). Dodatkowo metody bardzo szybko zbiegają do rozwiązań(średnio około 2 kroki, maksymalnie 20). W pracy C[3] zaproponowano, by ostateczną decyzję klasyfikacyjną podejmować za pomocą klasyfikatora łączonego, wykorzystującego informację płynącą ze wszystkich klasyfikatorów. Klasyfikator łączony otrzymany tą metodą jest kombinacją liniową ocen prawdopodobieństw a posteriori uzyskanych przez c różnych klasyfikatorów. Współczynniki tej kombinacji liniowej znajdowane są metodą najmniejszych kwadratów w modelu liniowej regresji wielokrotnej. Metoda ta została nazwana regresją stosową. W pracy B[45] zaprezentowana zostały metody łączone wykorzystujące, obok regresji stosowej, następujące modele regresyjne: regresja logistyczna, regresja nieparametryczna(estymator Nadarayi-Watsona), regresja najmniejszych częściowych kwadratów, regresja lasso, regresja lars-en oraz lars. Dodatkowo metody te zostały porównane z prostymi metodami łączenia klasyfikatorów takimi jak: metoda sumacyjna, iloczynowa, metoda głosowania, minimum i maksimum oraz metoda medianowa. Jako metody bazowe posłużyły następujące klasyfikatory: klasyfikator Parzena, naiwny klasyfikator Bayesa, binarne drzewa klasyfikacyjne, 1NN, perceptron liniowy. Badania wykazały, że najlepsze wyniki daje metoda nieparametryczna, która została zarekomendowana do użycia spośród badanych metod. 19
Kolejnym tematem moich badań było wykorzystanie uogólnionych pseudoodwrotności w klasyfikacji za pomocą metody LDA. Klasyczna wersja metody LDA wymaga aby macierz kowariancji była nieosobliwa. Jednakże w wielu zastosowaniach praktycznych ten wymóg jest trudny lub nawet niemożliwy do spełnienia. Dzieje się tak ponieważ obserwacje znajdują się w przestrzeni o bardzo wysokim wymiarze i niezbędna do estymacji macierzy kowariancji liczba obserwacji jest ogromna. Problem ten znany jest jako problem osobliwości lub problem małej próby(sss). Istnieje wiele metod radzenia sobie z takim problemem. Jedną z nich jest wykorzystanie uogólnionych odwrotności (B[37]). Badania przeprowadzone na 32 rzeczywistych zbiorach danych oraz 6 zbiorach generowanych pokazały, że zaproponowane metody dokładne oprócz tego, że pozwalają wykorzystać metodę LDA w sytuacjach gdy cech jest więcej niż obserwacji, to również obniżają błąd klasyfikacji także w przypadku klasycznej metody LDA. Zaproponowana metoda ma jedną zasadniczą wadę. Nie jest możliwe jej wykorzystanie w przypadku większych danych, ponieważ liczba możliwych przekątnych rośnie bardzoszybko(dla60cechjesttojuż 1.15 10 18 przekątnychdosprawdzenia).ztego względu zdecydowaliśmy się użyć jednej z wielu metod przybliżonych. Wybór padł na metody genetyczne. Tej tematyki dotyczy praca B[46]. W celu oceny jakości zaproponowanej metody przeprowadzone zostały badania symulacyjne na 15 zbiorach danych (10zliczbącechpowyżej15i5zliczbącechmniejsząniż15).Wynikipokazują,że zaproponowana metoda daje lepsze wyniki niż metoda LDA z odwrotnością MP dla dużych zbiorów danych. Poza tym jest możliwa do wykonania na zbiorze danych o dowolnej liczbie cech w przeciwieństwie do metody zaproponowanej w pracy B[37]. Praca B[29] porusza problem konstrukcji składowych głównych dla danych funkcjonalnych. Pokazano w niej, że analiza składowych głównych dla procesów X(t) skończenie wymiarowych jest równoważna wielowymiarowej analizie składowych głównych dlapewnychwektorówlosowych c = (c 0,c 1,,c N 1 ).WpracyB[29]zbadanodobór bazy i liczby jej elementów w procesie aproksymacji szeregów czasowych funkcjami ciągłymi. Rozpatrywane były następujące bazy funkcji ortonormalnych: baza Fouriera, baza sinusów, baza cosinusów oraz baza wielomianów Legedre a. Przeanalizowano również wpływ kryterium wyboru wielkości bazy. Analizie poddane zostały: kryterium bayesowskie oraz kryterium Akaike. Przeprowadzono obszerne badania symulacyjne na 20 rzeczywistych zbiorach danych pochodzących z repozytorium UCR(C[14]). Na podstawie symulacji i analizy statystycznej okazało się, że najlepiej zachowywała się baza wielomianów Legendre a wraz z kryterium Akaike jako metodą wyboru wielkości bazy. Zupełnie fatalnie wypadła natomiast baza cosinusów. W pracy B[35] zaproponowany został wariant jądrowy funkcjonalnych składowych głównych. Na tych samych zbiorach danych z wykorzystaniem bazy wielomianów Legendre a pokazano symulacyjnie, że wersja jądrowa daje jeszcze lepsze wyniki w przypadku danych funkcjonalnych. W przypadku gdy znana jest przynależność obiektów do klas lepszą techniką od składowych głównych są zmienne dyskryminacyjne, które potrafią wykorzystać tę dodatkową informację do konstrukcji nowych zmiennych. Konstrukcji takich zmiennych w przypadku funkcjonalnym, również w wersji jądrowej, poświęcona jest praca B[41]. W pracy pokazano, że analiza zmiennych dyskryminacyjnych procesów X(t) skończenie 20
wymiarowych jest równoważna wielowymiarowej analizie zmiennych dyskryminacyjnychdlapewnychwektorówlosowych c = (c 0,c 1...,c N 1 ).Podobniejakpoprzednio przeprowadzono badania symulacyjne na tych samych zbiorach danych, tym razem uwzględniając dodatkowe informacje o przynależności obserwacji do grup. W ich wyniku okazało się, że najlepsze rezultaty osiągamy wykorzystując funkcjonalne zmienne dyskryminacyjne w wersji jądrowej. Praca B[43] poświecona jest klasyfikacji w przestrzeni utworzonej przez funkcjonalne składowe główne oraz funkcjonalne zmienne dyskryminacyjne. W pracy B[42] zaproponowana została nowa metoda konstrukcji składowych głównych dla wielowymiarowych danych funkcjonalnych. Monografia B[22] jest nowoczesnym podręcznikiem zaawansowanych technik analizy danych stosowanych w zagadnieniach klasyfikacji zarówno z nauczycielem jak i bez, z naciskiem na metody statystyczne. Adresowana jest do osób zainteresowanych najnowszymi metodami eksploracji danych. Składa się z dwóch zasadniczych części. W pierwszej z nich przedstawiono systemy uczenia się pod nadzorem takie jak: LDA, QDA, metody regresyjne, SVM, knn, drzewa klasyfikacyjne i sieci neuronowe. Dodatkowo omówione zostały metody wzmacniania klasyfikatorów oraz łączenia metod klasyfikacji w celu uzyskania lepszych wyników. W części drugiej opisano cztery podstawowe metody uczenia się bez nadzoru: analiza składowych głównych, analizę skupień, skalowanie wielowymiarowe oraz analizę korespondencji. Podręcznik jest przeznaczony dla studentów studiów matematycznych, informatycznych i technicznych, na których analiza danych lub systemy uczące są przedmiotem obowiązkowym lub fakultatywnym. Natomiast monografia B[27] może spełniać rolę podręcznika do nauki statystyki (np. przedmioty takie jak: Elementy statystyki, Analiza danych, Statystyczne systemy uczące) dla studentów oraz hobbystów pasjonujących się metodami statystycznymi. Będzie przydatna także osobom zawodowo wykorzystującym statystykę, którym autor ułatwia wykrywanie i unikanie typowych błędów obliczeniowych i interpretacyjnych. Zawarte w monografii przykłady zostały opracowane za pomocą pakietu do obliczeń statystycznych R, dostępnego w Internecie bezpłatnie. O sile R stanowi blisko 6000 bibliotek, przeznaczonych do najróżniejszych zastosowań i wzbogaconych kompleksową dokumentacją. Omawiane w książce techniki są bogato ilustrowane przejrzyście opisanymi przykładami, a na końcu każdego rozdziału umieszczono zadania do samodzielnego rozwiązania. 3.1.1. Chemometria i biometria W pracach B[11], B[12], B[16]-B[18] oraz B[23] i B[24] zajmowałem się wykorzystaniem metod statystycznych w analizie spektrometrycznej żywności. W pracach tych używane były różnorodne metody rozpoznawania takie jak: LDA, QDA, PCA, knn, SIMCA oraz D-PLS. Dokonałem analizy danych otrzymanych za pomocą nosa elektronicznego, ze spektrometrem mas w roli detektora, do rozróżnienia piw(b[11], B[12], B[16], B[17], B[23], B[24]) oraz olejów spożywczych(b[18]) na bazie widma fluorescencji (uwzględniane były: długość przechowywania oraz temperatura i ilość światła w jakich produkty były przechowywane). Mieszanina związków lotnych uwalnianych przez badaną próbę analizowana była w spektrometrze mas z pominięciem etapu rozdziału na 21
poszczególne składniki. Otrzymane widma mas stanowią swoisty chemiczny odcisk palca i mogą zostać wykorzystane w celu klasyfikacji danych. W pracy B[32] zająłem się stężeniem pyłów zawieszonych PM10 i PM2.5 w powietrzu. Pyły te składają się z mieszaniny cząstek zawieszonych w powietrzu, będących mieszaniną substancji organicznych i nieorganicznych. Pyły takie mogą zawierać substancje toksyczne, które mogą docierać do górnych dróg oddechowych i płuc. Praca zawiera wyniki dotyczące pomiarów stężeń tych pyłów w Poznaniu w latach 2008-2011. Do analizy zgromadzonych danych wykorzystana została analiza regresji i korelacji. Zmianom zapylenia PM10 w Polsce w latach 1997-2009 poświęcona jest praca popularnonaukowa B[33]. Praca B[39] poświęcona jest analizie danych dotyczących pszenicy ozimej w latach 2007-2009. Celem pracy było podzielenie gatunków pszenicy na grupy w zależności od ich zdolności adaptacyjnych do zmian środowiskowych. W tym celu wykorzystano zaproponowane w pracy B[29] oraz B[35] funkcjonalne składowe główne do przekształcenia oryginalnych danych do nowych danych funkcjonalnych. Na tak uzyskanych danych przeprowadzono analizę skupień z wykorzystaniem minimalnego drzewa rozpinającego. 3.1.2. Ekonomia Kolejnym moim obszarem badań były metody koncentracji, specjalizacji, konwergencji oraz dekompozycji PKB i WDB. Praca B[13] ma charakter przeglądowy. Artykuł przedstawia wybrane metody analizy konwergencji i dywergencji i ma przybliżyć czytelnikom narzędzia powszechnie stosowane w literaturze zagranicznej. W pracy B[14] przedstawione zostały wybrane metody badań przestrzenno-ekonomicznych, ze szczególnym uwzględnieniem metody Michalskiego(C[1]). Celem badań było zbadanie procesów przestrzennych(w dziedzinach takich jak: gospodarka, demografia, rolnictwo, jakość życia czy budownictwo) w różnych przekrojach przestrzennych, w latach 1990-1992. W pracy B[15] sformułowane zostały nowe koncepcje rozwoju regionalnego w świetle procesów transformacji w latach 1990-1992. Artykuł B[19] omawia ogólne zagadnienia metodologiczne związane z badaniem procesów koncentracji, specjalizacji(polaryzacji). Druga jego część zawiera wnioski z badania specjalizacji i koncentracji w Polsce w latach 1999-2005 na bazie PKB, WDB oraz zatrudnienia. Tematyce specjalizacji polskich województw poświecone są prace B[20] oraz B[34]. Dla analiz regionalnych bardzo ważnym elementem jest porównanie rozwoju regionu z obszarem odniesienia, którym może być np. cała Polska. Niewiele jest metod ekonometrycznych, które pozwalają na takie właśnie ujęcie. Jedną z nich jest metoda shift-share, której idea pokrótce została zaprezentowana w artykule B[21]. W literaturze polskiej nie było kompleksowych prac pokazujących możliwości zastosowania tej metody do badań regionalnych. Celem artykułu było zaprezentowanie ogólnych założeń metodologicznych tej metody oraz zaprezentowanie możliwości jej wykorzystania do badań regionalnych wpolsce. Artykuł B[30] poświecony jest wykorzystaniu doskonałego narzędzia jakim są łańcuchy Markowa do analizy konwergencji polskich regionów w latach 1999-2008. 22
Praca B[31](rozdział w monografii) poświęcona jest problemowi mierzenia konkurencyjności regionalnej, ze szczególnym uwzględnieniem dekompozycji PKB. Praca B[38] poświęcona jest analizie danych dotyczących zmian polskiego PKB w latach 1999-2008. Celem pracy była wizualizacja danych typu szereg czasowy na jednym wykresie w celu zaobserwowania podobieństw regionów. W tym celu wykorzystano zaproponowane w pracy B[29] funkcjonalne składowe główne do przekształcenia oryginalnych danych do nowych danych funkcjonalnych, które następnie zostały zwizualizowane. Monografia B[28] porusza niezwykle ważny i relatywnie słabo do tej pory przedstawiony w literaturze problem konwergencji na szczeblu regionalnym, w przekroju regionów szczebla NUTS-2(regiony, województwa) oraz NUTS-3(podregiony utworzone z powiatów) w wybranych krajach przyjętych do Unii Europejskiej w 2004 roku i później. O ile znanych jest wiele publikacji z zakresu konwergencji na szczeblu gospodarek narodowych(nuts-1), o tyle konwergencja regionalna, mimo że znajduje się już w kręgu zainteresowań wielu badaczy, nie miała jeszcze zwartych monografii identyfikujących tę problematykę w szczególności na szczeblu NUTS-3. 3.2. Kandydat w liczbach Liczba cytowań moich prac(bez autocytowań) według bazy Web of Science wynosi 132(127), a indeks Hirscha równa się 5. Sumaryczny IF(według roku publikacji) wszystkich opublikowanych artykułów równa się 17.837. Sumaryczna liczba punktów według aktualnej listy MNiSW(z 17 grudnia 2013 roku) wszystkich opublikowanych artykułów wynosi 539. 3.3. Kandydat jako recenzent Łącznie wykonałem piętnaście recenzji dla czasopism i konferencji: 21st International Conference on Computational Statistics 2014, Biometrical Letters, Colloquium Biometricum, Communications in Statistics Simulation and Computation, Computational Statistics and Data Analysis, European Conference on Data Analysis 2013, IEEE Transactions on Parallel and Distributed Systems, Information Sciences, International Journal of Applied Mathematics and Computer Science, Journal of Applied Statistics, Journal of Statistical Computation and Simulation devoted to Linstat 2010. 3.4. Nagrody 1. Nagroda Dziekana Wydziału Matematyki i Informatyki UAM za działalność naukowąwroku2005, 2. Nagroda III stopnia Rektora UAM za działalność naukową w roku 2008, 23