mgr. int Lukasza Wrobla Promotor: dr hab. int Marek Sikora, prof. nzw. w PoL SI Dziedzina: nauki techniczne, Dyscyplina: informatyka

Podobne dokumenty
pracy doktorskiej mgr Lukasza Wrobla p.t. Zastosowanie regul logicznych do analizy przezycia"

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Wydawnictwo Politechniki Poznanskiej

Elementy modelowania matematycznego

Recenzja 1 rozprawy doktorskiej mgr inz. Lukasza Koziola pt...metoda oceny infrastruktury technicznej przeznaczonej do piel^gnacji drzew owocowych"

Algorytmy klasyfikacji

Recenzja rozprawy doktorskiej mgr Mirona Bartosza Kursy p/t. Robust and Efficient Approach to Feature Selection and Machine Learning

ALGORYTM RANDOM FOREST

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Katedra Energoelektroniki i Automatyki Systemów Przetwarzania Energii Akademia Górniczo-Hutnicza im. St. Staszica al. Mickiewicza Kraków

PRZEWODNIK PO PRZEDMIOCIE

Ocena rozprawy doktorskiej Pani mgr Miroslawy Mocydlarz-Adamcewicz:

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Poznari, dn r.

Aplikacja Ramzes Ramzes Rejestrator

KIERUNKOWE EFEKTY KSZTAŁCENIA

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Zadaniem kierownika komórki audytu wewnetrznego jest ustalenie podzialu zadan audytowych, który zapewni wykonanie tego planu.

EFEKTY UCZENIA SIĘ DLA KIERUNKU INŻYNIERIA DANYCH W ODNIESIENIU DO EFEKTÓW UCZENIA SIĘ PRK POZIOM 6

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Zakres pytań obowiązujący w roku akad. 2015/2016

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

Priorytetyzacja przypadków testowych za pomocą macierzy

Opinia o pracy doktorskiej pt. On active disturbance rejection in robotic motion control autorstwa mgr inż. Rafała Madońskiego

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Algorytm. Krótka historia algorytmów

Recenzja mgr Anny ŚLIWIŃSKIEJ Ilościowa ocena obciążeń środowiskowych w procesie skojarzonego wytwarzania metanolu i energii elektrycznej

Testowanie hipotez statystycznych.

Analiza przeżycia. Czym zajmuje się analiza przeżycia? Jest to analiza czasu trwania, zaprojektowana do analizy tzw.

O REDUKCJI U-INFORMACJI

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Systemy uczące się Lab 4

1. Problem badawczy i jego znaczenie. Warszawa,

Warszawa, dnia /3 lutego2015. RZADOWE CENTRUM LEGISLACJI WIGEPREZES Robert Brochocki RCL.DPS.510-8/15 RCL.DPS.

Testowanie hipotez statystycznych.

Analiza przeżycia. Czym zajmuje się analiza przeżycia?

Dopasowywanie modelu do danych

Opinia o pracy doktorskiej pt. Systemy adaptacyjnej absorpcji obciążeń udarowych autorstwa mgr inż. Piotra Krzysztofa Pawłowskiego

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska


Efekty kształcenia na kierunku AiR drugiego stopnia - Wiedza Wydziału Elektrotechniki, Automatyki i Informatyki Politechniki Opolskiej

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

Metodologia badań psychologicznych

Testowanie modeli predykcyjnych

Recenzja rozprawy doktorskiej mgr Bartosza Rymkiewicza pt. Społeczna odpowiedzialność biznesu a dokonania przedsiębiorstwa

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

"""'V <:: <:>'\,IV".A..A. F. :::ii!!::.'y <:::::ii!!::. EC; <:>

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Widzenie komputerowe (computer vision)

MATEMATYCZNE METODY WSPOMAGANIA PROCESÓW DECYZYJNYCH

Testowanie elementów programowalnych w systemie informatycznym

Recenzja. promotor: dr hab. Marianna Kotowska-Jelonek, prof. PŚk

Klasyfikacja metodą Bayesa

Optymalizacja ciągła

Systemy uczące się wykład 2

Recenzja rozprawy doktorskiej mgr Yasena Asada Mhanna Rajihy. nt. ICA and Artificial Neural Networks in Supporting Decision Process

Zagadnienia na egzamin magisterski na kierunku Informatyka i Ekonometria (2 stopień studiów)

Analiza przeżycia. Wprowadzenie

Odniesienie symbol II/III [1] [2] [3] [4] [5] Efekt kształcenia. Wiedza

Arkadiusz Manikowski Zbigniew Tarapata. Prognozowanie i symulacja rozwoju przedsiębiorstw

Agnieszka Nowak Brzezińska Wykład III

dr hab. inż. Krzysztof Zatwarnicki, prof. PO Opole, r. Wydział Elektrotechniki, Automatyki i Informatyki Politechnika Opolska

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W NYSIE

Sposoby prezentacji problemów w statystyce

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

J Czy wszystkie 4 komplety dokumentacji zostal wypelnione w jezyku polskim? K Czy do kompletu dokumentacji w jezyku polskim dolaczona zostala wersja

Opinia o pracy doktorskiej pt. Damage Identification in Electrical Network for Structural Health Monitoring autorstwa mgr inż.

SPIS TREŚCI. Do Czytelnika... 7

Automatyczne wyodrębnianie reguł

Szkolenie Analiza dyskryminacyjna

Transport II stopień (I stopień / II stopień) Ogólnoakademicki (ogólnoakademicki / praktyczny)

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Z-LOGN Ekonometria Econometrics. Przedmiot wspólny dla kierunku Obowiązkowy polski Semestr IV

WSPOLCZYNNIKI ZBIEZNOSCI ALGORYTMOW GIBBSA

Uniwersytet Łódzki Wydział Matematyki i Informatyki PROGRAM KSZTAŁCENIA kierunek Informatyka Środowiskowe Studia Doktoranckie (studia III stopnia)

4. Raport z przeprowadzonych konsultacji zostanie opublikowany w ciagu 30 dni od zakonczenia konsultacji w Biuletynie Informacji Publicznej.

Podstawa formalna recenzji Uwagi ogólne

Recenzja rozprawy doktorskiej mgr Pradeep Kumar pt. The Determinants of Foreign

Analiza wybranych aspektów wyników egzaminu gimnazjalnego

Recenzja rozprawy doktorskiej mgr Łukasza Gadomera pt. Rozmyte lasy losowe oparte na modelach klastrowych drzew decyzyjnych w zadaniach klasyfikacji

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

PRZEWODNIK PO PRZEDMIOCIE. Statystyka opisowa. Zarządzanie. niestacjonarne. I stopnia. dr Agnieszka Strzelecka. ogólnoakademicki.

Asocjacyjna reprezentacja danych i wnioskowanie

Recenzja rozprawy doktorskiej mgr inż. Jarosława Błyszko

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

Transformacja wiedzy w budowie i eksploatacji maszyn

Warszawa, 6 marca 2014 r. KL/140/44/256/JKr/MP/2014. Pani Magdalena Mtochowska Podsekretarz Stanu Ministerstwo Administracji i Cyfryzacji

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

Uniwersytet Śląski w Katowicach str. 1 Wydział Informatyki i Nauki o Materiałach

dr hab. inż. Andrzej Żyluk, prof. ITWL Warszawa r. Instytut Techniczny Wojsk Lotniczych ul. Ks. Bolesława Warszawa RECENZJA

Spis treści 3 SPIS TREŚCI

PROLEGOMENA DO STATYSTYCZNEJ ANALIZY KINETYKI SORPCJI CIECZY W WYROBACH WLÓKIENNICZYCH

Transkrypt:

dr hab. Jan Bazan, prof. UR 5 wrzesnia 2016 r. Uniwersytet Rzeszowski, Wydzial Matematyczno-Przyrodniczy ul. Pigonia 1, 35-310 Rzeszow bazan@ur.edu.pl R e c e n z j a r o z p r a w y d o k t o r s k i e j mgr. int Lukasza Wrobla z a t y t u t o w a n e j : Zastosowanie re gut logicznych do analizy przezycia Promotor: dr hab. int Marek Sikora, prof. nzw. w PoL SI Dziedzina: nauki techniczne, Dyscyplina: informatyka 1. C e l i z a k r e s r o z p r a w y Rozprawa doktorska dotyczy problemu analizy danych w ktorych wystepuje pewna zmienna okreslaj^ca czas, jaki uplynaj do pojawienia si? pewnego zdarzenia (np. czas od momentu zakonczenia leczenia onkologicznego do ewentualnej wznowy choroby). Jednym z glownych problemow napotykanym podczas analizy tego typu danych jest wyst?powanie obserwacji, dla ktorych nie jest dost?pna pelna informacja o czasie przezycia. Dla takich obserwacji wiadome jest jedynie, ile co najmniej wynosil czas przezycia, ale nie jest wiadome czy i kiedy doktadnie wystajrilo zdarzenie. Np. wiadomo, ze po operacji onkologicznej usuniecia guza pacjent przezyl 3 lata, ale nie wiadomo czy dozyje do 5 lat po operacji. Obserwacje te nazywane s^ cenzurowanymi lub ucietymi. Jest to dobrze znany w literaturze problem naukowy, a dane takie czesto s^ okreslane mianem danych cenzurowanych, ucietych lub danymi przezycia. Do analizy takich danych opracowano szereg klasycznych metod statystycznych zwanych ogolnie pod nazw^ analizy przezycia. Analiza przezycia stanowi podstawowe narz?dzie analityczne w studiach nad umieralnoscia^ pacjentow, nawrotami choroby, czy tez w badaniach nad skutecznosci^ nowych terapii leczenia. Znalazla ona rowniez zastosowanie w takich obszarach jak analiza niezawodnosci dzialania urz^dzeh czy tez bardziej ogolnie, w analizie trwania zjawisk i procesow. W analizie przezycia najczesciej stosowane sq metody umozliwiajqce estymacje funkcji przezycia (prawdopodobiehstwa przezycia dluzej niz zadany czas), porownywanie rozkladu czasu przezycia roznych grup obserwacji oraz modelowanie wplywu zmiennych (cech) objasniajqcych na czas przezycia. Klasycznymi metodami analizy przezycia s^ m.in. metoda Kaplana-Meiera (krzywe przezycia beda.ca wizualizacja. estymatora Kaplana-Meiera sa. czesto wykorzystywane do porownywania rozkladu czasu przezycia pomiedzy roznymi grupami obserwacji) oraz regresyjny model proporcjonalnego hazardu Coxa (modelowanie wplywu zmiennych objasniaj^cych na czas przezycia). Metody te jednak nie umozliwiaj^ modelowania wielowymiarowych, nieliniowych zaleznosci, co jest czesto przydatne przy analizie przezycia. Dlatego w ostatnim czasie w analizie przezycia stosuje sie metody uczenia maszynowego i eksploracji danych. Chodzi tutaj np. o sieci neuronowe, sieci bayesowskie, maszyny wektorow podpierajacych (SVM), drzewa, lasy losowe oraz reguly. Obecnie, sposrod tych metod najwiekszq popularnosci^ ciesza^ sie drzewa, ktore jednak, pomimo swoich licznych zalet, majq pewne wady, ktore w praktyce moga. powodowac, ze dla konkretnych zastosowah i danych lepiej jest zastosowac metode opart^ na innym paradygmacie. Na przyklad chodzi o to, ze w przypadku indukcji drzew czesto odkrywany jest tylko pewien okreslony (mniejszy lub wiekszy) fragment wiedzy z danych, ktory pozniej wykorzystywany jest do wnioskowania. Ten

brak redundancji, czy tez wieloaspektowosci spojrzenia w odkrytej wiedzy czesto powoduje, ze utworzone modele eksploracji nie zawsze sprawdzaj^ sie w praktyce np. do wspomagania podejmowania decyzji. Ten problem, a takze szereg innych powodujq, ze uwaga badaczy kieruje si? na inne metody eksploracji danych, w tym na reguly, ktore ze swej istoty nie maj'3 niektorych wad drzew, ale zachowuja^ ich cenne zalety. Tymczasem w literaturze, do tej pory bylo bardzo niewiele prac na temat zastosowania algorytmow indukcji regul do analizy przezycia i byly to prac? nastawione na pojedyncze zbiory danych, a nie rozwijaj^ce ogolnie tego typu podejscie. Dlatego eel em rozprawy bylo wypelnienie luki literaturowej w zakresie indukcji regul z danych cenzurowanych i opracowanie nowych metod eksploracji umozliwiaj^cych odkrywanie wiedzy w danych przezycia w postaci regul logicznych. Opisana wyzej problematyka jest niebanalna. Dlatego uwazam, ze podj?ta tematyka moze z powodzeniem stanowic przedmiot rozprawy doktorskiej. 2. Z a w a r t o s c r o z p r a w y Rozdzial 1 to wprowadzenie obejmujqce ogolne przedstawienie motywacji, problemu badawczego, celu i tezy rozprawy oraz wkladu autora w aktualny stan wiedzy. Natomiast rozdzial 2 zawiera przegl^d najwazniejszych zagadnieh zwiqzane z analizq przezycia. Opisano takze sposob reprezentacji danych cenzurowanych, podstawowe problemy oraz glowne metody wykorzystywane dotychczas do ich analizy. Rozdzial 3 opisuje zagadnienia zwiazane z indukcja_ regul. Omowiono sposob ich reprezentacji, miary oceny jakosci regul oraz zaprezentowano algorytm indukcji regul wykorzystuj^cy strategi? pokryciow^. W rozdziale 4 opisane propozyeje nowych algorytmow w zakresie indukcji regul z danych cenzurowanych. Zaprezentowano w nim zagadnienia zwiazane z regulami przezycia oraz szczegolowo omowiono kazdy z proponowanych algorytmow. Rozdzial 5 zawiera obszernq analiz? opracowanych algorytmow ze wzgl?du na dokladnosc predykeji oraz czytelnosc uzyskiwanych modeli regulowych. W szczegolnosci, opisano wyniki eksperymentow przeprowadzonych na 16 zbiorach danych, ze szczegolnym uwzgl?dnieniem zbioru opisuj^cego pacjentki z rakiem piersi poddane terapii hormonalnej oraz zbioru zawieraj^cego informacje o pacjentach po przeszczepie szpiku kostnego. Na koniec, rozdzial 6 stanowi podsumowanie rozprawy i przedstawia kierunki dalszych prac. 3. P o p r a w n o s c i o r y g i n a l n o s c p o s t a w i o n e j t e z y ( w k t a d a u t o r a ) Na podstawie doswiadczen Autora rozprawy w zakresie pokryciowych algorytmow indukcji regul dla danych klasyfikacyjnych oraz regresyjnych, do realizacji wspomnianego wyzej celu pracy postanowiono wykorzystac strategie sekwencyjnego pokrywania, prowadz^c do nast?puj4cej tezy rozprawy: Zastosowanie w analizie przezycia paradygmatu sekwencyjnego pokrywania i odpowiednio dobranych kryteriow sterowania algorytmem indukcji regul pozwala na uzyskanie modeli o dobrych zdolnosciach prognostycznych i objasniajacych. Nalezy stwierdzic, ze postawienie takiej tezy bylo jak najbardziej uzasadnione brakiem w literaturze prac na ten temat oraz potencjalnymi korzysciami jakie mozna osi^gn^c w analizie przezycia rozwijaj^c i stosujqc takie metody.

Dla wykazania tej tezy wykonano nastepujqce prace, ktorych wyniki w rozwoj dyscypliny naukowej. wkladem Autora rozprawy 1. Zaproponowano szereg metod (algorytmow) indukcji regul oraz technik ich uzycia do wnioskowania w oparciu o dane cenzurowane. 2. Zaimplementowano te metody we wlasnej bibliotece oprogramowania. 3. Wykonano eksperymenty na danych rzeczywistych wykorzystuje wlasne implementacje oraz konkurencyjne implementacje innych metod analizy przezycia znanych z literatury. 4. Wykonano analize statystyczn^ w celu oceny jakosci i efektywnosci proponowanych w rozprawie metod oraz porownania ich z istniej^cymi metodami opartymi na innych podejsciach. 5. Zinterpretowano wyniki eksperymentow oraz przedstawiono wnioski. Ponizej omawiam bardziej szczegolowo wyniki wyzej wymienionych prac. Ad 1. Zaproponowano cztery nastepujqce algorytmy zwiqzane z indukcji regul dla danych cenzurowanych wraz z technikami ich wykorzystania do wnioskowania w oparciu o zbiory danych. 1. Pierwszy z algorytmow powala na bezposrednie zastosowanie do danych cenzurowanych algorytmu indukcji regul decyzyjnych nadzorowanego miarami jakosci. Kazdy obiekt przyporzadkowany jest do dwoch klas: pozytywnej (wysokie ryzyko wystaj>ienia zdarzenia) i negatywnej (niskie ryzyko). Ryzyko to wyznaczone jest na postawie estymatora funkcji przezycia poprzez zastosowanie progow wartosci estymatora. Tego typu operacja w rozprawie nosi nazwe decenzuryzacji danych. Dzieki temu mozna zastosowac wprost algorytm pokryciowy liczenia regul. Istotna^ cecha^ proponowanego rozwi^zania jest mozliwosc sterowania przebiegiem algorytmu tak, aby mogl on wygenerowac reguly spelniaj^ce zadane przez uzytkownika wymagania co do postaci generowanych regul. Jest to realizowane za pomoca^ "recznego" wymuszania przez uzytkownika fragmentow jej struktury (np. czesci atrybutow w regule), do ktorych algorytm dopasowuje resztejej struktury. Wartosc praktyczna tak wygenerowanych regul, z punktu widzenia danych cenzurowanych polega na tym, ze dla kazdej reguly wyznaczany jest estymator funkcji przezycia na podstawie obiektow pasuj^cych do reguly. Dzieki temu uzyskujemy narz?dzie do oceny przezywalnosci dla obiektow testowych (s^ to tzw. PN-Rules). 2. Drugi z algorytmow, bed^cy pewnym uogolnieniem pierwszego, wykorzystuje tzw. wazona^ decenzuryzacje danych. Polega to na tym, ze klasy decyzyjne nie s^ wyznaczone w oparciu o estymatora funkcji przezycia (jak bylo w poprzednim algorytmie), ale w oparciu o specjaln^ wage, ktora jest ilorazem estymatora funkcji przezycia dla maksymalnego czasu obserwacji cenzurowanej w zbiorze treningowym i wartosci estymatora funkcji przezycia dla calego zbioru uczqcego. Ten sposob liczenia regul wydaje sie lepiej reprezentowac prawdopodobiehstwo wystajnenia zdarzenia, gdyz lepiej wykorzystuje do uczenia dane uciete (sa. to tzw. CW-Rules). 3. Trzeci algorytm do indukcji regul z danych cenzurowanych wykorzystuje kryterium log-rank. Reguly generowane s^ w taki sposob, aby zmaksymalizowac roznice pomi?dzy krzyw^ przezycia obserwacji spelniaj^cych danq regul?, a obserwacjami pozostalymi. Dodatkowo, reguly generowane s^ dla calosci danych, a nie dla kazdej klasy decyzyjnej osobno (s^ to tzw. LR-Rules).

4. Ostatni z algorytmow Iqczy pokryciowa_ strategi? indukcji regul ze strategic dziel i zwyciezaj, posilkujqc si? podczas indukcji regul drzewami przezycia. Metoda polega na tym, ze generowane sq drzewa przezycia, ktore dostarczaj^ kolejnych regul pokryciowych, poprzez ekstrakcj? sciezek w drzewie przezycia od korzenia do liscia. (s^ to tzw. ST-Rules) Ponadto, waznym wynikiem przeprowadzonych prac zwi^zanych z powyzszymi algorytmami jest identyfikacja miar oceny jakosci regul, ktore umozliwiaja^ uzyskanie regul przezycia o dobrych wlasnosciach prognostycznych oraz opisowych (w tym wedlug statystyki log-rank). Ad 2 Autor zaimplementowal proponowane w rozprawie algorytmy we wlasnej bibliotece oprogramowania, ale w rozprawie brak jest informacji o zastosowanym jezyku programowania i o wykorzystanych bibliotekach. Ad 3. i 4. W celu oceny efektywnosci proponowanych rozwi^zan pod wzgl?dem dokladnosci predykcji oraz zdolnosci opisowych wykonano eksperymenty na 16 zbiorach danych, ze szczegolnym uwzglednieniem zbioru opisujaxego pacjentki z rakiem piersi poddane terapii hormonalnej oraz zbioru zawieraj^cego informacje o pacjentach po przeszczepie szpiku kostnego. Do oceny dokladnosci predykcji poshizono si? znanym z literatury wskaznikiem Briera (wyraza roznic? pomi?dzy rzeczywistym prawdopodobiehstwem zaobserwowania zdarzenia, a prawdopodobiehstwem prognozowanym przez estymator), a do oceny zlozonosci modeli regulowych (PN_Rules, CW-Rules, LR-Rules, ST-Rules), posluzono si? takimi kryteriami, jak liczba regul czy tez srednia liczba warunkow elementarnych wyst?puj^cej w przeslance reguly. Wyniki testowanych algorytmow zostaly porownane z wynikami, jakie uzyskuj^ znane z literatury drzewa przezycia (RPART i CTREE), lasy losowe (RSF i CFOREST) oraz estymator Kaplana-Meiera (traktowany jako model naiwny, bo nie uwzgl?dniaj^cy atrybutow warunkowych). Przyj?t^ metodologia^ testowania w przeprowadzonych badaniach eksperymentalnych byla 10-krotna walidacja krzyzowa powtorzona 10 razy na kazdym ze zbiorow. Dla weryfikacji roznicy efektywnosci algorytmow na danych stosowano test Wilcoxona i test Fiedmana. Ad 5. Przeprowadzone badania eksperymentalne potwierdzily, ze zaproponowane algorytmy generowania regul pozwalaj^ na uzyskanie dla danych cenzurowanych modeli o dobrych zdolnosciach prognostycznych. Kazda z opracowanych metod jest istotnie lepsza od estymatora Kaplana-Meiera oraz osi^ga porownywalne wyniki do drzew przezycia, a nawet lasow losowych. Przeprowadzona pelna analiza dwoch zbiorow danych uzasadnia stwierdzenie, ze otrzymane modele regulowe charakteryzuja. si? rowniez dobrymi zdolnosciami opisowymi, pelniejszymi niz drzewa przezycia i bardziej czytelnymi jak lasy losowe. Przedstawione wyniki badan uzasadniaj'4 zatem sformulowana, w rozprawie tez?. Dodatkowo, dzi?ki przeprowadzonym badaniom mozna dobierac metody generowania regul tak, aby spelnialy wymagania dotycz^ce efektywnosci, zlozonosci i czytelnosci interpretacji. 4. W i e d z a i u m i e j e t n o s c i A u t o r a d o p o p r a w n e g o i p r z e k o n y w u j ^ c e g o p r z e d s t a w i e n i a u z y s k a n y c h p r z e z s i e b i e w y n i k o w W rozprawie Autor zamiescil obszerny przeglqd aktualnego stanu wiedzy w zakresie analizy przezycia ze szczegolnym naciskiem na metody zwiazane z proponowanym podejsciem, to jest z zastosowaniem regul logicznych. Opisy te zostaly wykonane z wysoka^ starannosci^ i z licznymi odwolaniami do literatury, co pozwolilo dobrze umiejscowic w literaturze przedmiotu prezentowane badania. Bez w^tpienia swiadcz^ one o duzej wiedzy kandydata. Ponadto, nalezy tutaj mocno podkreslic, ze napisanie rozprawy wymagalo wczesniejszego skonstruowania, w tym

zaprogramowania, srodowiska eksperymentalnego. Autor aktywnie uczestniczyl w wykonaniu tego srodowiska, ktore powstalo w ramach prac prowadzonych w grancie DISESOR - Zintegrowany szkieletowy system wspomagania decyzji dla systemow monitorowania procesow, urzadzeh i zagrozen" (projekt nr PBS2/B9/20/2013) finansowanym przez Narodowe Centrum Badari i Rozwoju. Jak juz wspominalem wyzej, pozycja rozprawy w stosunku do obecnego stanu wiedzy polega na tym, ze rozprawa wypelnia luk? w literaturze swiatowej dotycza^ metod indukcji regul z danych cenzurowanych. Zaproponowane nowe metody z pewnosci^ beda_ uzyteczne w analizie przezycia, gdyz algorytmy regulowe moga^ bye niew^tpliwie skuteczna^ alternatyw^ lub uzupelnieniem wykorzystywanych do tej pory metod analizy przezycia. Odnosz^c sie do umiejetnosci Autora rozprawy w zakresie poprawnego i przekonywujqcego przedstawiania uzyskanych wynikow nalezy stwierdzic, ze w tym zakresie Autor rozprawy wykazal si? dobrymi umiejetnosciami. Rozprawa napisana jest bardzo przejrzyscie i dose latwo si? j^ czyta. Bardzo dobrze zaprojektowano jej struktur?, ktora zostala uwidoczniona w spisie tresci. Dlatego z latwoscia^ mozna w niej znalezc interesuja.ee czytelnika fragmenty. Nalezy takze podkreslic, ze zjednej strony rozprawa napisana jest miejscami bardzo ogolnie, co pomaga w rozumieniu calosci problematyki. Z drugiej jednak strony bardziej wnikliwy czytelnik moze w niej stosunkowo latwo znalezc interesuja.ee go szczegoly techniczne, ktore (co warto podkreslic) bardzo rzadko s^ zast?powane odwolaniem do literatury, ale zanim to nastqpi, s^ przedstawiane przynajmniej w formie skrotowej. Dzi?ki temu Autor osiqgnaj: efekt, ze czytelnikowi trudno znalezc brakuj^ce szczegoly opisywanych podejsc. Zdaniem Recenzenta, to bardzo dobra praktyka przy pisaniu rozpraw doktorskich. Na uwag? zasluguje takze dokladnosc Autora w opisywaniu wynikow eksperymentow komputerowych, w tym aspektu statystycznego tych wynikow. 4. U w a g i n a t e m a t r o z p r a w y Z formalnego i matematycznego punktu widzenia rozprawa nie budzi zastrzezeh recenzenta. Podczas lektury rozprawy nasuwajq si? jednak pewne drobne uwagi, ktore mozna traktowac jako sformulowanie pewnych mankamentow lub sugestii co do dalszych prac. Dobrze by bylo, aby Kandydat odniosl si? do nich podczas obrony rozprawy. 1. Napisanie rozprawy wymagalo wczesniejszego zaprogramowania proponowanych w niej algorytmow. Dobrze by bylo podac informacj? w jakim j?zyku tworzone bylo to oprogramowanie i jaki jest jego status. Czy np. jest ono do pobrania i przetestowania przez potencjalnych uzytkownikow? W rozprawie nie mozna znalezc tych informacji. 2. W rozprawie wykorzystuje si? algorytm generowania regul pokryciowych. Warto by bylo podac informacj? w jakim stopniu ten algorytm zawiera elementy zaproponowane przez Autora, a w jakim stopniu zaczerpni?to pomysl z literatury (konkretnie z jakiej publikacji). Informacja ta powinna bye podana podczas obrony rozprawy. 3. Proponowane w rozprawie algorytmy, przy klasyfikowaniu obiektow testowych dzialaj^ w ten sposob, ze w przypadku pojawiania si? pustego miejsca dla wartosci ktoregos atrybutu w obiekcie testowym, obiekt moze nie bye rozpoznany przez reguly. W efekcie jest klasyfikowany trywialnie wprost za pomoca^ estymatora Kaplana-Meiera (KM jest traktowany jako model naiwny, bo nie uwzgl?dniaj4cy atrybutow warunkowych). Nasuwa si? pytanie, czy bylo robione porownanie takiego podejscia z podejsciem, ktore w przypadku braku mozliwosci

r sklasyfikowania przez reguly, nie klasyfikuje obiektu testowego, co skutkuje niepelnym pokryciem podczas klasyfikowania? Czy srednie wyniki klasyfikacji mogloby bye lepsze przy niepelnym pokryciu od wynikow z trywialnq klasyfikacja. za pomocq KM? 4. Czy przy estymacji funkcji przezycia prowadzonej na podstawie wielu regul pokrywaj^cych przyklad testowy byly robione jakies eksperymenty z algorytmami agregacji informacj i o regulach, ktore rozni^ sie od opisanego w pracy podejscia polegaj^cego na obliczeniu sredniej z estymatorow wszystkich regul? Czy testowanie takich podejsc byloby zasadne? Jakie to mialyby bye metody? 5. Dlaczego w pracy nie korzystano z metod liczenia wszystkich regul z minimaln^ liczby deskryptorow? Czy zastosowanie takich metod mogloby polepszyc jakosc prezentowanych metod? Jesli tak, to w jakim zakresie? 6. W jaki sposob eksperci "wstrzykuja/' wiedze dziedzinowq podczas dzialania metody generowania regul sterowanej przeslankami analityka, tzn. w jakim jezyku zapisywana jest ta wiedza dla systemu? W jaki sposob system wykorzystuje te wiedze? Czy Autor rozprawy uzywal jaki egos algorytmu automatycznego uwzgledniania tej wiedzy przy indukcji regul? Jesli tak, to jakiego? 7. W rozprawie przedstawiono dyskusje na temat zlozonosci obliczeniowej czasowej algorytmu indukcji regul z ktorej wynika, ze pesymistyczna zlozonosc czasowa tego algorytmu jest kwadratowa wzgledem liczby regul (parametr powi^zany z liczby obiektow) i liczby atrybutow. Oznacza to, ze algorytm ten nie jest skalowalny i moze nie dzialac efektywnie dla wiekszych danych. Nasuwa sie pytanie czy rozwazane byly jakies pomysly na modyfikacje tego algorytmu, celem uczynienia go skalowalnym? 8. Rozprawa praktycznie nie zawiera zadnych informacji o konstrukeji konkretnych systemow komputerowych wykorzystuj^cych proponowane metody w praktyce. Tymczasem metody te maj^ potencjalnie liczne zastosowania. Dlatego jesli sq takie propozyeje lub perspektywy, to powinno bye przedstawione podczas obrony rozprawy. 5. P o d s u m o w a n i e Uzyskane wyniki s^ interesujace zarowno z teoretycznego, jak i praktycznego punktu widzenia. Dlatego niezaleznie od wspomnianych wyzej drobnych mankamentow, uwazam prace za wartosciow^. Autor wykazal bardzo dobre opanowanie wielu roznorodnych technik matematycznych i informatycznych. Sposob wykorzystania tych technik wskazuje na rzetelne opanowanie przez Niego warsztatu naukowego. Bior^c pod uwage opinie zaprezentowane w poprzednich punktach i wymagania zdefiniowane przez artykul 13 Ustawy z dnia 14 marca 2003 r. o stopniach naukowych i tytule naukowym (z pozniejszymi zmianami) 1 moja ocena rozprawy pod wzgledem trzech podstawowych kryteriow jest nastepuj^ca: A. Czy rozprawa zawiera oryginalne rozwi^zanie problem naukowego? (wybierz jedn^ opeje stawiajac znak X) x 1 http://www.nauka.gov.pl/g2/oryginal/2q13 05/b26ba540a5785d48bee41aec63403b2c.pdf

Raczej TAK Trudno Raczej NIE TAK powiedziec NIE B. Czy po przeczytaniu rozprawy zgadzasz sie, ze kandydat posiada ogolna^ wiedze teoretyczn^ w dyscyplinie? TAK Raczej TAK Trudno powiedziec Raczej NIE C. Czy kandydat ma umiejetnosc samodzielnego prowadzenia pracy naukowej? TAK Raczej TAK Trudno powiedziec Raczej NIE NIE NIE W zwiazku z powyzszym, wnioskuje o dopuszczenie rozprawy doktorskiej do publicznej obrony.