Gliwice, 01.09.2016 Prof, dr hab. inz. Katarzyna Stapor Politechnika Slaska Wydzial Automatyki, Elektroniki i Informatyki Instytut Informatyki R E C E N Z J A pracy doktorskiej mgr Lukasza Wrobla p.t. Zastosowanie regul logicznych do analizy przezycia" 1. Obszar problemowy i teza rozprawy Tematyka recenzowanej rozprawy doktorskiej dotyczy zagadnien zwiazanych z analizq przezycia. Analiza przezycia to z definicji zbior metod statystycznych sluzacy do badania czasu, jaki uplynie do wystapienia okreslonego zdarzenia. Z matematycznego punktu widzenia opiera si? ona na teorii rachunku prawdopodobieristwa, statystyki matematycznej oraz optymalizacji. Techniki analityczne stosowane w tym celu uwzgl?dniajq niepewnosc co do wystapienia punktu koncowego w czasie. Techniki analizy statystycznej umozliwiajq realizacj? trzech podstawowych celow: 1) estymacj? funkcji przezycia, 2) porownywanie rozkladow czasow przezycia pomi?dzy grupami, 3) modelowanie wplywu zmiennych objasniajacych na czas przezycia. Z3 < an B i u r o Oziekana Wptyneto dnia.,.53;!?.. IZ3\.
Pierwotnie, analiza przezycia byla uzywana do celow aktuarialnych oraz przemyslowych, a obecnie jej techniki wykorzystywane sq rowniez w zagadnieniach medycznych (np. przy analizowaniu dlugosci zycia pacjentow po zastosowaniu okreslonej terapii), ekonomicznych, demograficznych, czy spolecznych. Glowna obecnie dziedzina zastosowah analizy przezycia, nauki medyczne, w szczegolnosci badania nad ryzykiem zgonu z powodu choroby nowotworowej lub jej progresji.sprawia, ze jednym z kluczowych wymagah stawianych wobec nowych metod jest to, aby uzyskane wyniki analiz cechowaly si? latwosciq interpretacji. Z tego powodu, duzym zainteresowaniem ciesza^ si? metody indukcji drzew, ktorych niewajtpliwq zaletq jest reprezentacja modelu danych w sposob czytelny i zrozumialy dla czlowieka. Algorytmy regulowe, podobnie jak drzewa, pozwalajq rowniez na modelowanie nieliniowych zaleznosci i wyrazanie ich za pomocq zrozumialych dla czlowieka formul logicznych. Dodatkowo, w stosunku do drzew nie wymagajq pewnych restrykcyjnych ograniczeh. Pomimo tych zalet, w literaturze mozna spotkac bardzo niewiele prac na temat zastosowania algorytmow indukcji regul do analizy przezycia. Recenzowana rozprawa jest udana^ moim zdaniem, probq wypelnienia istniejacej luki w zakresie indukcji regul z danych cenzurowanych. Konkretnie, celem pracy doktorskiej bylo wykazanie nast?pujacej, postawionej przez Doktoranta tezy badawczej: Zastosowanie w analizie przezycia paradygmatu sekwencyjnego pokrywania i odpowiednio dobranych kryteriow sterowania algorytmem indukcji regul pozwala na uzyskanie modeli o dobrych zdolnosciach prognostycznych i objasniajacych. " Tematyk? rozprawy uwazam za oryginalna^ waznq oraz aktualnq dla wspolczesnych prac z zakresu uczenia maszynowego w zastosowaniu do analizy przezycia, a w szczegolnosci podgrupy metod opartych na podejsciu regulowym. Podj?ta przez Doktoranta tematyka jest oryginalna i istotna z naukowego punktu widzenia, a opracowane w ramach rozprawy metody i algorytmy z pewnosciq b?dq miec duze znaczenie dla praktyki. 2
2. Zawartosc rozprawy Rozprawa skiada si? z szesciu rozdzialow. Zawiera 110 pozycji literaturowych. W rozdziale pierwszym, wprowadzajacym w tematyk? rozprawy przedstawiona zostala teza pracy wraz z umotywowaniem podj?tej tematyki. W rozdziale drugim omowione zostaly najwazniejsze zagadnienia zwiazane z analizq przezycia, rozdziala trzeci natomiast prezentuje najwazniejsze poj?cia zwiazane z realizowanq przez Doktoranta metodq uczenia maszynowego - indukcjq regul. W rozdziale czwartym przedstawione zostaly zaproponowane przez Doktoranta, no we algorytmy indukcji regul z danych cenzurowanych. Rozdzial piaty zawiera obszernq analiz? opracowanych algorytmow ze wzgl?du na dokladnosc predykcji oraz czytelnosc uzyskiwanych modeli regulowych. Przedstawiono tu rowniez praktyczne przypadki uzycia opracowanych algorytmow w dwoch zastosowaniach medycznych: na zbiorze pacjentek z rakiem piersi poddanych terapii hormonalnej oraz na zbiorze pacjentow po przeszczepie szpiku kostnego. Rozdzial szosty podsumowuje wykonane badania i osiqgni?te wyniki. 3. Uzyskane wyniki Realizacja postawionej na poczatku pracy tezy badawczej doprowadzila do szeregu oryginalnych, szczegolowych i konkretnych osiqgni?c. Do najwazniejszych, moim zdaniem nalezq zaproponowane w ramach pracy cztery no we algorytmy indukcji regul przezycia oparte na paradygmacie sekwencyjnego pokrywania. Algorytmy te nazywane sa^ w rozprawie odpowiednio: PN-Rules (rozdzial 4.3), CW-Rules (rozdzial 4.4), LR-Rules (rozdzial 4.5) oraz ST-Rules (rozdzial 4.6). Koncepcja algorytmu PN-Rules polega na uprzedniej dyskretyzacji zmiennej reprezentujacej czas przezycia, a nast?pnie zastosowaniu do tak zmodyfikowanych danych klasycznego algorytmu indukcji regul decyzyjnych sterowanego miarami jakosci. Istotnym wynikiem jest bylo tu wykazanie, ze mozliwe jest zastosowanie klasycznych metod indukcji regul decyzyjnych do danych cenzurowanych i uzyskanie modeli o dobrych wlasnosciach prognostycznych oraz opisowych. Waznq cechq algorytmu PN-Rules jest mozliwosc wplywania na postac warunkowq regul (indukcja regul sterowana przestankami analityka opisana na stronach 48-50 rozprawy), dzi?ki czemu uzytkownik moze zweryfikowac lub 3
doprecyzowac swoje przypuszczenia dotyczace zaleznosci, jakie jego zdaniem powinny znajdowac si? w danych. Drugi algorytm, CW-Rules to uogolnienie metody PN-Rules. Podzial na klasy decyzyjne dokonywany jest tu poprzez przypisanie obserwacjom wag okreslajacych stopieh przynaleznosci do kazdej z klas w zaleznosci od prawdopodobienstwa oszacowanego na postawie estymatora funkcji przezycia. Trzeci z opracowanych przez Doktoranta, algorytm LR-Rules wykorzystuje do nadzorowania procesu indukcji regul test log-rank W przeciwiehstwie do algorytmow PN- Rules oraz CW-Rules, algorytm LR-Rules umozliwia indukcj? regul bezposrednio z danych przezycia, bez koniecznosci uprzedniego wyodr?bniania klas decyzyjnych. Koncepcja polaczenia pokryciowej strategii indukcji regul z kryterium log-rank jest nowym i oryginalnym rozwiazaniem. Przy opracowywaniu ostatniego, czwartego algorytmu, ST-Rules, Doktorant wykorzystal opracowanq przez innych Autorow koncepcj? indukcji regul, adaptaujac ja do analizy przezycia. Ponadto, zastosowal tu autorskie mechanizmy przycinania regul oparte o test logrank, co pozwala na uzyskanie bardzo zwi?zlych modeli, zawierajacych cz?sto tylko kilka regul. Do innych, oryginalnych osiajmi?c Doktoranta nalezy rowniez zaproponowanie algorytmu filtracji regul (rozdzial 5.4.2, Algorytm 16 na stronie 83), umozliwiajqcego ograniczenie rozmiaru zbioru regul przezycia poprzez wybranie z niego regul istotnych statystycznie ze wzgledu na test log-rank oraz pokrywajacych jak najbardziej rozlaczne zbiory przykladow. Na wyroznienie zasluguje rowniez przeprowadzona starannie analiza statystyczna porownania uzyskanych wynikow - sprawnosci predykcji metodami statystycznymi. 4. Uwagi o charakterze dyskusyjnym, polemicznym, szczegotowe Podczas czytania pracy nasuwajq si? pewne uwagi, nie wplywajace jednakze na ogolnie bardzo wysokq ocen? pracy. Pewnym ograniczeniem opracowanych algorytmow PN-Rules oraz CW-Rules jest lezace u ich podstaw zalozenie obowiqzujqce w zasadzie tylko dla danych medycznych, ze wraz ze wzrostem dlugosci czasu przezycia maleje ryzyko wystajpienia zdarzenia. Zmniejsza 4
to uniwersalnosc zaprojektowanych algorytmow. Ponadto, algorytm PN-Rules wymaga definiowania parametru okreslajacego czas graniczny, wedlug ktorego obserwacje dzielone sq na klasy. W studium przypadku dla algorytmu PN-Rules (rozdzial 5.4) zostala przedstawiona metoda filtracji zbioru regul (rozdzial 5.4.2, Algorytm 16 na stronie 83), umozliwiajaca ograniczenie wynikowej liczby regul wygenerowanych na zbiorze danych pacjentow po przeszczepie szpiku kostnego (BMT-Ch). Warta rozwazenia jest weryfikacja skutecznosci wspomnianego algorytmu filtracji na wi?kszej liczbie zbiorow danych, anizeli tylko ten jeden. Ponadto, nie mog? zgodzic si? z pogladem Doktoranta, ze w przeciwiehstwie do metod statystycznych, reguly nie tylko pozwalajq na identyfikacjq zmiennych majqcych istotny wpfyw na czas przezycia, ale rowniez umozliwiajq modelowanie nieliniowych zaleznosci oraz interakcji miqdzy zmiennym^ (cyt). Metody statystyczne analizy przezycia stanowiq przeciez punkt odniesienia. Po pierwsze, juz klasyczny model proporcjonalnego hazardu Coxa, jak rowniez inne modele regresyjne przezycia pozwalajq przeciez na zbadanie wplywu wielu zmiennych niezaleznych na czas przezycia - w modelu Coxa poslugujemy si? testem Walda w celu zbadania istotnosci statystycznej wplywu poszczegolnych zmiennych. Po drugie, w roznych modelach regresji, w tym w odmianach modelu Coxa, od dawna modeluje si? interakcj? zmiennych objasniajacych. Po trzecie, istniejq rowniez modyfikacje klasycznego modelu Coxa z nieliniowqfunkcjq zmiennych objasniajacych (np. J. Cai, i in. Partially Linear Hazard Regression with Varying-coefficients for Multivariate Survival Data. J. Roy. Statist. Soc. B 70 (2008), 141-158, jak i kilka innych). Jako zadanie naprzyszlosc - ciekawym byloby porownanie nowych, proponowanych metod z regresyjnymi metodami modelowania, w tym rowniez z tymi nowszymi. Niewlasciwe jest rowniez cytowanie zrodla testu log-rank, ktory pochodzi od N. Mantela(1966). 5
5. Ocena koricowa rozprawy Reasumujac stwierdzam, ze postawiona w rozprawie teza pracy doktorskiej o mozliwosci wykorzystania paradygmatu sekwencyjnego pokrywania dla uzyskania modeli przezycia o dobrych zdolnosciach prognostycznych i objasniajacych zostala nalezycie uprawdopodobniona. Opracowane w ramach pracy nowe metody i algorytmy eksploracji danych umozliwiajq odkrywanie wiedzy w danych przezycia w postaci regul logicznych. Praca napisana jest przejrzyscie i stanowi przemyslanq calosc, a zawarte w niej rezultaty oryginalne, zostaly przedstawione na wysokim poziomie i z pewnosciq znajdq praktyczne wykorzystanie, w szczegolnosci w medycynie. Mgr inz. Lukasz Wrobel wykazal si? rowniez odpowiedniq wiedzq z zakresu uczenia maszynowego, w szczegolnosci tego, wykorzystujqcego indukcj? regul, a takze dobrym opanowaniem i poslugiwaniem si? warsztatem badawczym. Uwazam, ze recenzowana praca doktorska mgr Lukasza Wrobla w pelni spelnia wszystkie wymagania stawiane pracom doktorskim przez odpow iedniq Ustaw^ i wnioskuje o jej przyjecie i dopuszczenie do publicznej obrony. Poniewaz zaproponowane przez Doktoranta podejscie do analizy przezycia metodami uczenia maszynowego, a konkretnie w paradygmacie regulowym jest nowatorskie i wyznacza, mozna smialo powiedziec, pewien nowy kierunek w dziedzinie metod analizy przezycia - proponuje wyroznienie jego pracy doktorskiej. 6