Załącznik 2A do Wniosku o przeprowadzenie postępowania habilitacyjnego w dziedzinie nauk technicznych w dyscyplinie informatyka AUTOREFERAT dr inż. Maciej Jaworski Politechnika Częstochowska Wydział Inżynierii Mechanicznej i Informatyki Instytut Inteligentnych Systemów Informatycznych Częstochowa, 2018
1. Dane osobowe Imię i nazwisko: Adres: e-mail: Maciej Jaworski Politechnika Częstochowska, Wydział Inżynierii Mechanicznej i Informatyki, Instytut Inteligentnych Systemów Informatycznych, ul. Armii Krajowej 36, 42-200 Częstochowa maciej.jaworski@iisi.pcz.pl telefon: +48 662014484 2. Posiadane dyplomy i stopnie naukowe 17.09.2015 Stopień doktora nauk technicznych w dyscyplinie informatyka (obroniony z wyróżnieniem), Politechnika Częstochowska, Wydział Inżynierii Mechanicznej i Informatyki Tytuł rozprawy: Data stream mining algorithms based on hybrid techniques ( Algorytmy eksploracji danych strumieniowych z wykorzystaniem technik hybrydowych ) 25.11.2011 tytuł zawodowy magistra inżyniera informatyki, Akademia Górniczo-Hutnicza w Krakowie, Wydział Fizyki i Informatyki Stosowanej 18.12.2009 tytuł zawodowy magistra fizyki, Uniwersytet Jagielloński, Wydział Fizyki, Astronomii i Informatyki Stosowanej 3. Informacje o dotychczasowym zatrudnieniu w jednostkach naukowych 2015 obecnie: adiunkt naukowy, Politechnika Częstochowska, Wydział Inżynierii Mechanicznej i Informatyki, Instytut Inteligentnych Systemów Informatycznych. 2010 2015: doktorant, Politechnika Częstochowska, Wydział Inżynierii Mechanicznej i Informatyki, Katedra Inżynierii Komputerowej (od 2012 Instytut Inteligentnych Systemów Informatycznych).
4. Wskazanie osiągnięcia* wynikającego z art. 16 ust. 2 ustawy z dnia 14 marca 2003 r. o stopniach naukowych i tytule naukowym oraz o stopniach i tytule w zakresie sztuki (Dz. U. 2016 r. poz. 882 ze zm. w Dz. U. z 2016 r. poz. 1311.) 4.1 Tytuł osiągnięcia naukowego Sieci neuronowe i drzewa decyzyjne w zagadnieniach eksploracji strumieni danych. 4.2 Publikacje wchodzące w skład osiągnięcia naukowego [1] Maciej Jaworski, Piotr Duda, Leszek Rutkowski, 2018, New Splitting Criteria for Decision Trees in Stationary Data Streams, IEEE Transactions on Neural Networks and Learning Systems, vol. 29, no 6, pp. 2162-2529, lista A 45 pkt, IF=6,11, udział 80% [2] Maciej Jaworski, Piotr Duda, Leszek Rutkowski, Patryk Najgebauer, Miroslaw Pawlak, 2017, Heuristic Regression Function Estimation Methods for Data Streams with Concept Drift, Lecture Notes in Computer Science, Springer, vol. 10246, pp. 726-737, udział 80% [3] Maciej Jaworski, 2018, Regression Function and Noise Variance Tracking Methods for Data Streams with Concept Drift, International Journal of Applied Mathematics and Computer Science, vol. 28, no. 3, pp. 559-567, lista A 25 pkt, IF = 1,69, udział 100% [4] Maciej Jaworski, Patryk Najgebauer, Piotr Goetzen, 2018, Estimation of Probability Density Function, Differential Entropy and Other Relative Quantities for Data Streams with Concept Drift, Lecture Notes in Computer Science, Springer, vol. 10842, pp. 376-386, udział 80% [5] Maciej Jaworski, Piotr Duda, Leszek Rutkowski, 2018, On Applying the Restricted Boltzmann Machine to Active Concept Drift Detection, Proc. of the 2017 IEEE Symposium Series on Computational Intelligence (SSCI), pp. 3512-3519, udział 80% [6] Maciej Jaworski, Piotr Duda and Leszek Rutkowski, Concept Drift Detection in Streams of Labelled Data Using the Restricted Boltzmann Machine, Proc. of the 2018 IEEE International Joint Conference on Neural Networks (IJCNN), pp. 2502-2508, udział 80% Tabela 4.1 Podsumowanie dotyczące cyklu publikacji wchodzących w skład osiągnięcia naukowego Publikacja Udział habilitanta Udział pozostałych autorów Impact Factor Liczba punktów [1] 80% 10%, 10% 6,11 45 [2] 80% 5%, 5%, 5%, 5% - 15 [3] 100% - 1,69 25 [4] 80% 10%, 10% - 15 [5] 80% 10%, 10% - 15 [6] 80% 10%, 10% - 15
4.3 Omówienie celu naukowego ww. prac i osiągniętych wyników wraz z omówieniem ich ewentualnego wykorzystania Głównym przedmiotem badań w wyżej wymienionych pracach jest zagadnienie eksploracji strumieni danych. Są to potencjalnie nieskończone ciągi danych, które często docierają do systemu z olbrzymimi prędkościami. Ponadto, rozkład prawdopodobieństwa, któremu podlegają dane, może ulegać zmianom w czasie, co w literaturze znane jest pod angielskim terminem concept-drift. Te trzy wymienione cechy strumieni danych powodują, że tradycyjne metody eksploracji danych statycznych nie mogą na ogół być stosowane w tym przypadku bez wyraźnych modyfikacji. Algorytmy przeznaczone dla danych strumieniowych muszą brać pod uwagę fakt, że niemożliwe jest przechowywanie wszystkich danych w pamięci. Poza tym, algorytmy takie muszą działać odpowiednio szybko. Powszechne jest podejście, że każda dana może zostać przetworzona przez algorytm co najwyżej raz. Eksploracji danych jest bardzo szeroką dziedziną, obejmującą różne zagadnienia analizy danych, takich jak uczenie nadzorowane (klasyfikacja lub regresja) czy estymacja funkcji gęstości. W tym celu wykorzystuje się różne narzędzia maszynowego uczenia się. W wyżej wymienione pracach wykorzystywane są drzewa decyzyjne oraz sztuczne sieci neuronowe, odpowiednio zmodyfikowane tak, aby można jest było zastosować do danych strumieniowych. Drzewa decyzyjne zostały zastosowane w zagadnieniu klasyfikacji danych, natomiast sieci neuronowe w regresji oraz estymacji gęstości. Ponadto sieci neuronowe w postaci Maszyn Boltzmanna zostały w dwóch pracach wykorzystane jako narzędzie do wykrywania zmian rozkładu danych. [1] New Splitting Criteria for Decision Trees in Stationary Data Streams Praca ta dotyczy zastosowania drzew decyzyjnych w klasyfikacji danych strumieniowych. Najbardziej krytycznym elementem każdego algorytmu indukcji drzew decyzyjnych jest wybór atrybutu do podziału w każdym rozważanym węźle. Wyboru dokonuje się w oparciu o wybraną miarę jakości podziału. Wartość miary zależy od próbki danych zgromadzonych w rozważanym węźle oraz od potencjalnie wybranego atrybutu. Do podziału węzła wybierany jest atrybut maksymalizujący miarę jakości podziału. W przypadku strumieni danych dodatkowym problemem jest podjęcie decyzji, czy aktualna liczba danych w węźle jest wystarczająca do dokonania podziału. Decyzje te podejmuje się w oparciu o tzw. kryteria podziału. W pracy, po raz pierwszy w literaturze, wyróżniliśmy dwa typy kryteriów podziału. Kryteria pierwszego typu gwarantują, że z założonym prawdopodobieństwem atrybut wybrany na podstawie próbki danych jest atrybutem, który maksymalizuje jednocześnie wartość oczekiwaną miary podziału. Kryteria drugiego typu natomiast skutkują wyborem atrybutu, który z założonym prawdopodobieństwem jest taki sam, jak gdyby wybór został dokonany na podstawie całego, nieskończonego strumienia danych. Kryteria drugiego typu zostały zaproponowane w literaturze stosunkowo niedawno. Przy szacowaniu błędu popełnianego przy liczeniu wartości miary dla próbki danych wymagają uwzględnienia biasu. W omawianej pracy zaproponowanych zostało kilka kryteriów dla dwóch miar jakości podziału: tzw. zysku Giniego oraz miary opartej o błąd klasyfikacji. Do wyznaczenia
kryteriów została zastosowana nierówność McDiarmida, które w przypadku błędu klasyfikacji jest tożsama z nierównością Hoeffdinga. Co ważne, wszystkie kryteria zostały uzasadnione matematycznie i opierają się na udowodnionych w pracy twierdzeniach. Ponadto został zaproponowany szereg tzw. kryteriów hybrydowych, łączących ze sobą kryteria dla poszczególnych miar. W przypadku kryteriów hybrydowych początkowo sprawdzamy kryterium dla pierwszej miary (np. zysk Giniego). Jeśli kryterium nie jest spełnione, to sprawdzamy kryterium dla następnej miary (np. miary opartej o błąd klasyfikacji). Eksperymenty numeryczne wykazały, że drzewa decyzyjne z kryteriami hybrydowymi wykazują większe dokładności klasyfikacji niż drzewa decyzyjne z odpowiednimi kryteriami pojedynczymi. W pracy porównano także eksperymentalnie drzewa o kryteriach hybrydowych z drzewami Hoeffdinga, które zostały uznane za heurystyczne. Dodatkowo wykonane zostały symulacje z drzewami, dla których oszacowanie występujące w kryterium podziału równe jest połowie oszacowania występującego w drzewach Hoeffdinga. Te ostatnie okazały się zapewniać najwyższe wartości dokładności, co pokazuje, że otrzymane na podstawie analiz teoretycznych kryteria są dość grube. Warto więc prowadzić dalsze prace badawcze w tym temacie, gdyż może to skutkować w przyszłości opracowaniem bardziej dokładnych, i jednocześnie uzasadnionych teoretycznie, drzew decyzyjnych do eksploracji danych strumieniowych. [2] Heuristic Regression Function Estimation Methods for Data Streams with Concept Drift W pracy tej przebadane zostało zagadnienie estymacji zmiennej w czasie funkcji regresji. Metodą bazową, która została wykorzystana do opracowania algorytmów, są tzw. Uogólnione Regresyjne Sieci Neuronowe. W sieciach tych do śledzenie funkcji regresji wykorzystuje się tzw. funkcje jądrowe. Co więcej, sieci te można aktualizować w sposób rekurencyjny, nadają się więc do danych strumieniowych. Istniejące w literaturze sieci neuronowe tego typu pozwalają na śledzenie zmiennych w czasie funkcji regresji dla ściśle określonych typów zbieżności oraz dla odpowiedniego tempa zmian. Sieci te są uzasadnione teoretycznie. W niniejszej pracy podjęliśmy próbę zaimplementowania heurystycznych algorytmów, które można byłoby stosować do różnych typów zmian. Przyjęta została oczywista zasada, że dane starsze powinny mieć mniejszy wpływ na estymator funkcji niż dane, które zostały przetworzone później. W tym celu zaproponowano dwie metody. Pierwsza z nich stosuje tzw. okna przesuwne. W tym podejściu tylko określona liczba ostatnich danych jest wykorzystywana do konstrukcji estymatora funkcji regresji w danym czasie. W drugiej metodzie stosowany jest tzw. czynnik zapominania. Wkład poszczególnych danych do estymatora jest eksponencjalnie zmniejszany wraz z przetwarzaniem kolejnych danych. Im starsza dana, z tym mniejszą wagą jest brana pod uwagę przy konstrukcji estymatora. W zaproponowanych metodach nowością jest podejście do ustalania szerokości funkcji jądrowych używanych w estymatorze. W tradycyjnych Uogólnionych Regresywnych Sieciach Neuronowych szerokość funkcji jądrowych jest funkcją potęgową liczby przetworzonych elementów. W przypadku okien przesuwnych liczba danych po przekroczeniu rozmiarów okna jest stała, stałą więc też pozostaje szerokość funkcji jądrowych. Dla metody z czynnikiem zapominania trudno jest mówić o konkretnej liczbie danych tworzących
estymator. Można natomiast wyznaczyć odpowiednik tej liczby, będący liczbą rzeczywistą, który jest sumą wag wszystkich danych wchodzących w skład estymatora. [3] Regression Function and Noise Variance Tracking Methods for Data Streams with Concept Drift Praca ta jest rozszerzeniem poprzednio omawianych metod. Przebadano zaproponowane metody estymacji zmiennych funkcji regresji dla nowych danych. Ponadto zaproponowano metody estymacji wariancji szumu, również stosując Uogólnione Regresywne Sieci Neuronowe jako metodę bazową. Należy nadmienić, że w przypadku funkcji regresji estymator jest tak naprawdę ilorazem dwóch estymatorów. Estymator w mianowniku jest estymatorem funkcji gęstości. Jest on kombinacją liniową odpowiednich funkcji jądrowych. Estymator w liczniku estymuje natomiast iloczyn funkcji gęstości i funkcji regresji. Jest on kombinacją liniową funkcji jądrowych mnożonych przez wartości funkcji. W przypadku estymatorów wariancji szumu zaproponowano analogiczne podejście. Estymator w mianowniku dalej pozostaje estymatorem gęstości. Natomiast w liczniku estymator jest kombinacją liniową funkcji jądrowych pomnożonych przez kwadraty odchyleń wartości funkcji od średniej. Do wyznaczania wartości średniej stosowane są omawiane wcześniej estymatory funkcji regresji. Tak jak poprzednio, zaproponowano heurystyczne estymatory wariancji szumu w dwóch formach, tzn. z wykorzystaniem okien przesuwnych oraz czynnika zapominania. [4] Estimation of Probability Density Function, Differential Entropy and Other Relative Quantities for Data Streams with Concept Drift W tej pracy podjęta została tematyka estymacji zmiennych w czasie funkcji gęstości prawdopodobieństwa. Jest to zagadnienie uczenia nienadzorowanego, w odróżnieniu od wcześniej omawianych zagadnień klasyfikacji i regresji, które należą do uczenia nadzorowanego. Jako metodę bazową wykorzystano Probabilistyczne Sieci Neuronowe. W sieciach tych estymator gęstości można rozumieć jako kombinację liniową odpowiednich funkcji jądrowych, których środkami są kolejno przychodzące dane. Probabilistyczne Sieci Neuronowe także mogą być aktualizowane w sposób rekurencyjny, co czyni je stosowalnymi do strumieni danych. Aby poszerzyć spektrum możliwych typów zmian, z którymi mogłyby sobie radzić Probabilistyczne Sieci Neuronowe, zaproponowaliśmy dwie heurystyczne modyfikacje, analogiczne do estymatorów regresji omawianych przy okazji poprzednich prac. Jedna modyfikacja wprowadza do estymatora okna przesuwne, natomiast druga dodaje do estymatora czynnik zapominania. Otrzymane estymatory funkcji gęstości zostały następnie wykorzystane do skonstruowania estymatorów pewnych miar, które charakteryzują rozkład prawdopodobieństwa. Są to entropia różnicowa oraz kwadratowa różnicowa entropia Renyi ego. Zastały także zaproponowane estymatory miar różnic między dwoma rozkładami prawdopodobieństwa, tzn. dywergencja Cauchy ego-schwarza oraz kwadrat różnicy między dwoma rozkładami. Wszystkie wspomniane estymatory konstruowane są z wykorzystaniem estymatora funkcji gęstości oraz numerycznego całkowania metodą trapezów. [5] On Applying the Restricted Boltzmann Machine to Active Concept Drift Detection
W pracy analizowana była możliwość zastosowanie tzw. Ograniczonych Maszyn Boltzmanna do wykrywania zmian w rozkładzie danych. Jeśli chodzi o metody radzenia sobie ze zmiennymi rozkładami danych, w algorytmach eksploracji strumieni danych stosowane są głównie dwa podejścia. W pierwszym z nich mechanizm reagowania na zmiany jest wbudowany w sam algorytm. W drugim podejściu algorytm wymaga zewnętrznego narzędzia, które w razie wykrycia zmiany da algorytmowi właściwemu sygnał, iż należy dokonać przebudowy aktualnego modelu. Niniejsza praca jest właśnie próbą zaproponowania takiego narzędzia detekcji zmian. Ograniczona Maszyna Boltzmanna jest dwuwarstwową siecią neuronową (zawiera warstwy widzialną i ukrytą), zdolną do uczenia się rozkładu przychodzących danych. Dokładne uczenie się Maszyny Boltzmanna metodą gradientów jest praktycznie niemożliwe, jednak dzięki zastosowaniu tzw. metody Contrastive Divergence można znajdywać dość szybko przybliżone wartości gradientów funkcji kosztu. Dzięki temu możliwe było zastosowanie tej metody w przypadku strumieni danych. Na początku zakładamy, że strumień danych jest stacjonarny (nie wykazuje zmian rozkładu). W tej fazie Maszyna Boltzmanna uczy się rozkładu danych. Następnie nauczona sieć zostaje wykorzystywana do monitorowania potencjalnych zmian rozkładu. Wykorzystano dwa wskaźniki, tzn. energię swobodną oraz błąd rekonstrukcji. Jeśli rozkład danych w strumieniu nie zmienia się względem danych, na których sieć się uczyła, wtedy wartości obu wskaźników utrzymują się na stałym, niskim poziomie. W przypadku nastąpienia zmian wskaźniki rosną. Może to zostać wykorzystane jako sygnał do przebudowy właściwego modelu danych. W celu ułatwienia monitorowania zaproponowano także metodę inkrementalnego wyznaczania trendu zmian. Wykorzystano zwykłą metodą regresji liniowej wzbogaconej o czynnik zapominania, gdzie zmienną objaśniającą jest czas, a zmienną objaśnianą wartość używanego wskaźnika. Symulacje numeryczne wykazały, że Ograniczone Maszyny Boltzmanna mogą zostać zastosowane w roli detektorów zmian zarówno nagłych jak i stopniowych. [6] Concept Drift Detection in Streams of Labelled Data Using the Restricted Boltzmann Machine Niniejsza praca jest kontynuacją pracy poprzedniej, w której Ograniczona Maszyna Boltzmanna została zastosowana jako detektor zmian w rozkładzie danych strumieniowych. Do Ograniczonej Maszyny Boltzmanna dodano jednak trzecią warstwę typu softmax, połączona tylko z warstwą ukrytą. W warstwie tej tylko jeden neuron w danej chwili może zostać aktywowany (wartościami warstwy softmax są więc wektory typu one-hot ). Warstwa umożliwia uczenie się rozkładu danych, które oprócz atrybutów zawierają także informacje o klasie (są zaetykietowane, tak jak w przypadku zagadnienia klasyfikacji danych). Podobnie jak w poprzedniej pracy zastosowano metodę uczenia Contrastive Divergence, odpowiednio zmodyfikowaną tak, aby dodatkowo umożliwić uczenie się wag pomiędzy warstwą ukrytą a warstwą softmax. Wykorzystano także dwa wskaźniki do monitorowania zmian rozkładu, tzn. błąd rekonstrukcji oraz energię swobodną. Ponadto zastosowano inną metodę śledzenia trendu zmian. Mechanizm z czynnikiem zapominania zastąpiono oknem przesuwnym, które pozwala dynamiczniej reagować na zmiany w rozkładzie danych.
5. Omówienie pozostałych osiągnięć naukowo badawczych Łączny dorobek publikacyjny habilitanta, z okresów przed i po uzyskania stopnia doktora, stanowi 38 publikacji. W Tabeli 5.1 przedstawiono rozkład liczby publikacji na publikacje poszczególnych typów. Tabela 5. 1 Łączny dorobek habilitanta z okresów przed i po uzyskaniu stopnia doktora Rodzaj publikacji Liczba publikacji Publikacje zamieszczone w czasopismach Journal Citation Reports 9 Pozostałe publikacje z bazy Web of Science 20 Pozostałe publikacje 9 Razem 38 Dane bibliograficzne wg. bazy Web of Science, stan na 31.10.2018: Liczba cytowań: 399 (319 bez autocytowań) h-index: 12 5.1 Dorobek naukowo badawczy przed uzyskaniem stopnia naukowego doktora Praca habilitanta przed uzyskaniem stopnia naukowego doktora skupiała się głównie wokół dwóch wątków badawczych: klasyfikacji danych strumieniowych z wykorzystaniem drzew decyzyjnych oraz grupowania danych strumieniowych. Najbardziej rozwinięty został pierwszy z wymienionych wątków i był on głównym tematem rozprawy doktorskiej. W przypadku algorytmów indukcji drzew decyzyjnych dla danych strumieniowych kluczowym elementem są tzw. kryteria podziału. Pozwalają one stwierdzić, czy z założonym prawdopodobieństwem atrybut wybrany do podziału rozważanego węzła na podstawie dotychczas zgromadzonej próbki danych będzie także maksymalizował wartość oczekiwaną miary jakości podziału. W literaturze najszerzej rozważanym kryterium podziału było kryterium uzyskane z wykorzystaniem nierówności Hoeffdinga. Habilitant wraz z zespołem badawczym wykazał jednak, że podejście to jest niewłaściwe, gdyż nierówność Hoeffdinga nie może zostać zastosowana dla nieliniowych miar jakości podziału, takich jak zysk informacji czy zysk Giniego. Zaproponowane zostały nowe narzędzia do wyznaczania kryteriów podziału, tzn. nierówność McDiarmida (będąca uogólnieniem nierówności Hoeffdinga na szerszą klasę funkcji) oraz aproksymację gaussowską. Dla wspomnianych miar jakości podziału wyznaczone zostały kryteria podziału, poparte udowodnionymi twierdzeniami matematycznymi. Zaproponowana została także nowa, dotychczas nigdy nie stosowana w kontekście danych strumieniowych, miara jakości podziału bazująca na błędzie klasyfikacji. Dla tej miary uzyskane zostało kryterium podziału z wykorzystaniem aproksymacji gaussowskiej, również poparte odpowiednim twierdzeniem. Ponadto po raz pierwszy została zaproponowana idea kryteriów hybrydowych, w ramach których sprawdzane są kolejno po sobie kryteria dla dwóch różnych miar jakości podziału. W symulacjach numerycznych okazało się zgodnie z przewidywaniami, że drzewa decyzyjne z hybrydowymi kryteriami uzyskują znacznie lepsze dokładności klasyfikacji niż drzewa z kryteriami
pojedynczymi. Poza pracą doktorską, obronioną z wyróżnieniem, wyniki uzyskane w ramach omówionych badań zostały także opublikowane w wielu prestiżowych czasopismach naukowych, tzn. IEEE Transactions on Knowledge and Data Engineering, Information Sciences oraz IEEE Transactions on Neural Networks and Learning Systems. Za cykl tych publikacji habilitant otrzymał wraz z zespołem Nagrodę Zespołową I stopnia Rektora Politechniki Częstochowskiej. W ramach drugiego wątku badawczego, tzn. algorytmów grupowania danych strumieniowych, zaproponowano dwa algorytmy. Są one modyfikacją znanych algorytmów grupowania danych, tj. Fuzzy C-Means oraz Probabilistic C-Means. W zaproponowanych metodach dane przetwarzane są blokami. Po każdym bloku otrzymywane są centra klastrów (grup) wraz z wagami równymi sumie stopni przynależności danych wchodzących w skład danego klastra. Następnie wagi te są zmniejszane przez czynnik zapominania i wraz z kolejnym blokiem danych biorą udział w kolejnym grupowaniu. 5.2 Dorobek naukowo badawczy po uzyskaniu stopnia naukowego doktora 5.2.1 Inne prace opublikowane po uzyskaniu stopnia doktora Na dorobek publikacyjny habilitanta po uzyskaniu stopnia doktora składa się 15 prac, z czego 6 z nich wchodzi w skład przedstawianego osiągnięcia naukowego Tabela 5.2: Dorobek publikacyjny habilitanta po uzyskaniu stopnia doktora Rodzaj publikacji Liczba publikacji Publikacje zamieszczone w czasopismach Journal Citation Reports 5 Pozostałe publikacje z bazy Web of Science 7 Pozostałe publikacje 3 Razem 15 Całkowita liczba cytowań po otrzymaniu stopnia doktora (od 2016 roku): 293. Do najistotniejszych, spośród publikacji niebędących częścią przedkładanego osiągnięcia naukowego, zaliczam następujące artykuły Piotr Duda, Maciej Jaworski, Leszek Rutkowski, 2018, Convergent Time-Varying Regression Models for Data Streams: Tracking Concept Drift by the Recursive Parzen- Based Generalized Regression Neural Networks, International Journal of Neural Systems, vol. 28, no. 02, 1750048 Praca dotyczy nieparametrycznych metod estymacji funkcji regresji w środowisku niestacjonarnym, z wykorzystaniem funkcji jądrowych Parzena. Estymatory mogą być aktualizowane dana po danej w sposób rekurencyjny, co odpowiada wymogom stawianym przez strumienie danych. W pracy analizowane są dwa rodzaje niestacjonarności danych. Pierwszą z nich jest niestacjonarność rozkładu prawdopodobieństwa szumu (przy stacjonarnej funkcji regresji). Przyjmuje się, że zmianie ulega wariancja tego rozkładu. W pracy udowodniono dwa twierdzenia, które przedstawiają warunki, jakie muszą zostać spełnione, aby estymator funkcji regresji był zbieżny do właściwej funkcji kolejno według
prawdopodobieństwa oraz z prawdopodobieństwem 1. Kolejnym rozważanym rodzajem niestacjonarności jest jednoczesna zmienność zarówno szumu jak i samej funkcji regresji. Analogicznie jak w poprzednim przypadku wyznaczone zostały warunki, przy których estymator zbiega do funkcji według prawdopodobieństwa oraz z prawdopodobieństwem 1, co również zostało udowodnione. Zaproponowane estymatory zostały porównane eksperymentalnie z pokrewnymi heurystycznymi metodami, w których zastosowano mechanizm zapominania oraz okna przesuwne Piotr Duda, Maciej Jaworski, Leszek Rutkowski, 2017, Knowledge Discovery in Data Streams with the Orthogonal Series-based Generalized Regression Neural Networks, Information Sciences, vol. 460-461, pp. 497-518 W tej pracy do estymacji zmiennej w czasie funkcji regresji zastosowano szeregi ortogonalne. W odróżnieniu od estymatora opartego na funkcjach jądrowych Parzena, estymator ten nie wymaga definiowania siatki punktów w celu przechowywania jego aktualnych wartości. Zamiast tego aktualizowana jest pewna liczba początkowych współczynników kombinacji liniowej funkcji ortogonalnych. Pozwala to na wyliczenie w każdej chwili wartości estymatora dla dowolnego punktu rozważanej dziedziny. Podobnie jak w poprzednio omawianej pracy, rozważane były dwa typy niestacjonarności, tj. niestacjonarność samego szumu oraz niestacjonarność zarówno funkcji regresji jak i szumu. Udowodniono także odpowiednie twierdzenia matematyczne, ustanawiające warunki, jakie muszą zostać spełnione, aby proponowany estymator zbiegał do rzeczywistej funkcji według prawdopodobieństwa oraz z prawdopodobieństwem 1. Lena Pietruczuk, Leszek Rutkowski, Maciej Jaworski, Piotr Duda, 2017, How to Adjust an Ensemble Size in Stream Data Mining?, Information Sciences, vol. 381, pp. 46-54 Praca ta jest rozszerzeniem artykułu pt. A method for automatic adjustment of ensemble size in stream data mining, zaprezentowanego podczas konferencji International Joint Conference on Neural Networks w 2016 roku w Vancouver. Dotyczy ona klasyfikacji danych strumieniowych z wykorzystaniem metod zespołowych. Praca udziela odpowiedzi na pytanie w jaki sposób można optymalizować liczbę komponentów w zespole. Przykładowo, po przetworzeniu kolejnego bloku danych tworzony jest nowy klasyfikator, który potencjalnie może zostać włączony do zespołu. Aby podjąć decyzję, na danym bloku danych przeprowadza się test dokładności osobno dla aktualnego zespołu oraz dla zespołu zawierającego dodatkowo nowoutworzony komponent. Jeśli różnica dokładności spełnia ustanowione z wykorzystaniem aproksymacji gaussowskiej odpowiednie kryterium, to oczekujący komponent zostaje włączony do zespołu. W przeciwnym razie nowy komponent zostaje odrzucony nie ma potrzeby włączać go do zespołu, gdyż nie zmienia on istotnie dokładności. Chociaż zaproponowany algorytm może funkcjonować dla dowolnego typu klasyfikatorów będących komponentami, w eksperymentach numerycznych zastosowano drzewa decyzyjne. Zaproponowano tutaj jednak kolejną modyfikację. Zamiast przypisywać jedną wagę dla całego komponentu (drzewa decyzyjnego) wprowadzono osobne wagi dla każdego z liści w każdym drzewie.
Piotr Duda, Maciej Jaworski, Lena Pietruczuk, Marcin Korytkowski, Marcin Gabryel, Rafał Scherer, 2016, On the Application of Orthogonal Series Density Estimation for Image Classification Based on Feature Description, Knowledge, Information and Creativity Support Systems: Recent Trends, Advances and Solutions, Advances in Intelligent Systems and Computing, Springer, vol. 364, pp. 529-540 W tej pracy nieparametryczne metody estymacji rozkładów gęstości zostały zastosowane w zagadnieniu klasyfikacji obrazów. W literaturze istnieje grupa metod klasyfikacji obrazów polegających na detekcji punktów kluczowych na obrazie. Najbardziej znanymi algorytmami tej grupy są algorytmy SIFT oraz SURF. W wyniku działania tych algorytmów odnajdywane są punkty charakterystyczne dla występujących na przetwarzanym obrazie obiektów. Następnie, każdy punkt kluczowy jest opisywany specjalnym deskryptorem, czyli wielowymiarowym wektorem liczb, zależnym od otoczenia danego punktu. Finalnie, na obrazie znajdują się punkty kluczowe zarówno dla obiektu danej klasy jak i dla tła. W zaproponowanej metodzie rozkład wartości deskryptorów danej klasy został zamodelowany przez nieparametryczną metodę estymacji z wykorzystaniem szeregów ortogonalnych. Następnie, w celu zaklasyfikowania nowego obrazu, rozkład wartości deskryptorów jest porównywany z rozkładami bazowymi dla poszczególnych klas, otrzymanymi w procesie uczenia. Dla każdej klasy ustalony został w sposób automatyczny próg, determinujący jaki odsetek deskryptorów musi być zgodny z deskryptorami tej klasy. 5.2.2 Inne osiągnięcia naukowo badawcze po uzyskaniu stopnia doktora Do innych osiągnięć naukowo-dydaktycznych habilitanta należą między innymi: Kierowanie międzynarodowymi i krajowymi projektami badawczymi oraz udział w takich projektach: 1. Algorytmy eksploracji strumieni danych z wykorzystaniem technik hybrydowych, 20.02.2015-19.02.2016, PRELUDIUM, Narodowe Centrum Nauki, kierownik 2. Nowe podejście do modelowania w niestacjonarnym środowisku, 01.10.2015-29.12.2018, OPUS, Narodowe Centrum Nauki, wykonawca ( post-doc ) 3. Rozwój metod głębokiego uczenia sieci neuronowych, 08.10.2018 obecnie, OPUS, Narodowe Centrum Nauki, wykonawca ( post-doc ) Aktywny udział w międzynarodowych konferencjach naukowych: 1. The 2018 International Joint Conference on Neural Networks (IJCNN), Rio de Janeiro, Brazylia, 2018, 2. The 17th International Conference on Artificial Intelligence and Soft Computing (ICAISC), Zakopane, Polska, 2018, 3. The 2017 IEEE Symposium Series on Computational Intelligence (IEEE SSCI 2017), Honolulu, Stany Zjednoczone Ameryki Północnej, 2017, 4. The 16th International Conference on Artificial Intelligence and Soft Computing (ICAISC), Zakopane, Polska, 2017, 5. The 15th International Conference on Artificial Intelligence and Soft Computing (ICAISC), Zakopane, Polska, 2016,
6. The 2016 International Joint Conference on Neural Networks (IJCNN), Vancouver, Kanada, 2016 Współorganizacja workshopu: Stream Data Mining" w ramach konferencji The 16th International Conference on Artificial Intelligence and Soft Computing ICAISC 2017 Członkostwo w międzynarodowych i krajowych organizacjach naukowych: 1. Polskie Towarzystwo Sieci Neuronowych (PTSN): 2018 obecnie, 2. Polska Grupa Maszynowego Uczenia Się (Polish-SIGML): 2013 obecnie Opieka naukowa nad doktorantem w charakterze promotora pomocniczego: Paweł Staszewski, Wydział Inżynierii Mechanicznej i Informatyki, Politechnika Częstochowska, otwarcie przewodu 21.06.2018, tytuł rozprawy: Hybrydowe struktury do segmentacji obrazów z wykorzystaniem metod głębokiego uczenia Wykonywanie recenzji prac naukowych dla następujących czasopism: 1. IEEE Transaction on Cybernetics 2. Journal of Applied Mathematics and Computational Mechanics 3. The Very Large Data Bases Journal 4. Journal of Experimental and Theoretical Artificial Intelligence 5.3 Osiągnięcia dydaktyczne i w zakresie popularyzacji nauki w okresie po uzyskaniu stopnia naukowego doktora Współorganizacja Gry miejskiej w ramach V edycji Projektu Młodzi Kreatywni realizowanego z Urzędem Miasta Częstochowy, 2018, Częstochowa Laboratoria pt. Podstawy konstrukcji i programowania robotów z klocków LEGO Mindstorms EV3 w ramach Częstochowskiego Uniwersytetu Młodzieżowego, 2017-2018, Częstochowa Wykłady popularyzatorskie nt. sztucznej inteligencji wraz z prezentacją możliwości programowania robotów LEGO Mindstorms EV3 dla młodzieży ze szkół częstochowskich, 2017-2018, Częstochowa Zajęcia z programowania robotów LEGO Mindstorms EV3 w ramach warsztatów Devox4kids, 2016, Radomsko