Częstochowa, dn. 15.01.2018 Prof. dr hab. inż. Roman Wyrzykowski Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska ul. Dąbrowskiego 69 42-201 Częstochowa RECENZJA ROZPRAWY DOKTORSKIEJ mgr inż. Katarzyny Wasielewskiej-Michniewskiej Application of semantic analysis methods to increase the efficiency of grid usage Promotor: dr hab. Marcin Paprzycki Instytut Badań Systemowych PAN 1. Obszar problemowy rozprawy i jego znaczenie Tematyka przedłożonej do recenzji rozprawy doktorskiej mgr. inż. Katarzyny Wasielewskiej-Michniewskiej dotyczy jednego z najszybciej rozwijających się obszarów współczesnej informatyki, który sytuuje się na styku przetwarzania równoległego i rozproszonego, problematyki szeroko rozumianych sieci komputerowych, w tym sieci Internet, a także wiąże się ściśle z praktycznymi implikacjami, jakie dla rozwoju współczesnego społeczeństwa niesie szerokie zastosowania powyższych technologii. Nie wydaje się bowiem przesadą stwierdzenie, że zdolność praktycznego wykorzystania technologii sieciowych i komputerowych staje się w coraz większym stopniu czynnikiem różnicującymi nie tylko poszczególne kraje, lecz również warstwy społeczne czy regiony w tych krajach. Drogę tego rozwoju wyznaczały takie kamienie milowe, jak superkomputer, klaster, metakomputer, sformułowane przez Fostera i Kesselmana pod koniec lat 90-tych XX wieku pojęcie rozproszonego środowiska obliczeniowego typu Grid czy wreszcie tak ostatnio popularne i dynamicznie rozwijające się systemy chmurowe (Cloud), nie wspominając już o całkiem niedawno sformułowanych koncepcjach środowisk typu Fog i Dew. W szczególności, rozpatrywane w pracy systemy gridowe będące uogólnieniem pojęcia metakomputer kładą nacisk na takie podstawowe aspekty, jak: (1) rozwój 1
oprogramowania warstwy pośredniej, służącego do zarządzania zasobami i usługami w heterogenicznym środowisku systemów geograficznie rozproszonych; (2) zapewnienie bezpieczeństwa; (3) problem przezroczystego dla użytkownika łączenia wielu domen z uwzględnieniem efektywności zarządzania zasobami dla różnych rodzajów przetwarzania, na przykład, obliczeń dużej skali (czy to ze względu na wymaganą moc obliczeniową, czy ilość danych), usług pracy grupowej, funkcjonowania organizacji wirtualnych, itd. Wśród najbardziej znanych projektów badawczych z danego obszaru, zainicjowanych najpierw w Stanach Zjednoczonych, a później również w Europie, wymienić należy Netsolve, Globus, Legion, DataGrid oraz UNICORE, a w naszym kraju - projekt PL-Grid. Do najważniejszych problemów, których rozwiązanie warunkuje efektywność korzystania z produkcyjnych instalacji Grid, obok efektywnego zarządzania zasobami i zagwarantowania bezpieczeństwa udostępnianych usług, należy zapewnienie użytkownikom wsparcia w poszczególnych aspektach ich współdziałania z gridem, aby pozwolić nawet użytkownikom o ograniczonej wiedzy informatycznej na efektywne zlecania zadań i wykorzystania możliwości gridu. Istotne jest przy tym zapewnienie zarządzania wykorzystaniem zasobów gridu przez użytkowników zgodnie z odpowiednim SLA (ang. Service Level Agreement) czyli kontraktem pomiędzy klientem a dostawca usług, określającym zakres usług oraz zasady współpracy oferowane na czas trwania kontraktu. Tymczasem w istniejących środowiskach gridowych użytkownicy w szeregu przypadków musza się zmagać z szeregiem niedogodności wynikających chociażby z różnorodności interfejsów w zakresie definiowania zadań i zlecania ich wykonania. Akceptowalne rozwiązanie tego problemu musi brać pod uwagę nie tylko aspekty czysto techniczne wynikające np. z konieczności minimalizacji narzutów czasowych, lecz również czynniki o charakterze nieomal psychologicznym, związane ze specyfiką lokalnych polityk w zakresie udostępniania i zarządzania zasobami gridu. Z tego punktu widzenia wybór tematu rozprawy uważam generalnie za trafny, a rozważane w niej problemy są niewątpliwie istotne, zarówno dla teorii, jak i przede wszystkim praktyki zastosowań systemów typu Grid. Zastrzeżenie natury bardziej szczegółowej wynika natomiast z faktu, iż w ostatnim okresie typowe architektury gridowe straciły istotnie na znaczeniu i rozpowszechnieniu, będąc wypierane przez rozwiązania chmurowe. W odróżnieniu od gridów, wywodzących się ze środowiska akademickiego i wykorzystywanych głównie w zastosowaniach naukowych, systemy chmurowe zostały zaproponowane przez środowiska biznesowe, a ich sfera zastosowań ogniskuje się również wokół potrzeb tych środowisk. W efekcie nakłada to swoiste piętno także na sam sposób funkcjonowania i udostępniania chmur, w wielu przypadkach różniący się radykalnie w porównaniu z gridami. Moim zdaniem, fakt ten ogranicza zakres stosowalności wyników uzyskanych w recenzowanej rozprawie. 2
2. Koncepcja i redakcja rozprawy Recenzowana praca doktorska obejmuje formalnie 5 rozdziałów, bibliografię zawierającą 160 pozycji, a także 6 dodatków z opracowanymi przez Autora ontologiami. Zasadnicza część rozprawy (bez dodatków, ale z uwzględnieniem bibliografii) liczy łącznie aż 210 stron, co szczerze powiedziawszy, przekracza zwyczajową objętość rozpraw doktorskich. W rozdziale pierwszym Autorka zawarła wprowadzenie do stanu badań w rozważanym w pracy obszarze tematycznym, ze szczególnym uwzględnieniem technologii semantycznych i ich wykorzystania do reprezentacji wiedzy dziedzinowej, a następnie jej zastosowania do wsparcia użytkowników środowisk gridowych. Umożliwiło to sformułowanie tezy pracy oraz jej celu głównego i celów szczegółowych. Kontynuując bliższe przedstawienie aktualnego stanu badań, w rozdziale drugim scharakteryzowano środowiska gridowe oraz przedstawiono paradygmat systemów agentowych, a także dokonano wprowadzenia do podstawowych pojęć z zakresu ontologii wraz z wykorzystywanymi w rozpatrywanym obszarze językami i frameworkami oraz aspektami technologicznymi zagadnienia przetwarzania informacji semantycznych. Istotne znaczenie dla dalszej części pracy ma także dokonana przez Autorkę analiza zagadnienia reprezentacji kontraktów SLA dla potrzeb środowisk gridowych. Całokształt przedstawionego w tym rozdziale materiału pozwolił na zawężenie kontekstu badań zrealizowanych w pracy w zakresie zastosowania technologii semantycznych, w tym ontologii i agentów programowych, do zapewnienia wsparcia użytkownika w zakresie jak najbardziej wygodnego i jednocześnie efektywnego korzystania ze środowisk gridowych. Rozdział trzeci można traktować jako pewien wstęp do autorskiego rozwiązania zawartego już w kolejnym rozdziale. Przedstawiono w nim m.in. przykłady systemów gridowych i metraklastrów opracowanych przez polskie środowiska naukowe, a także dokonano wprowadzenia do problematyki reprezentacji wiedzy dziedzinowej w zagadnieniu wspomagania użytkownika przy wyborze oprogramowania do rozwiązania problemów matematycznych (ang. Software Selection Problem SSP). Zasadniczą część rozdziału poświęcono przedstawieniu projektu Agent in Grids (AIiG ), w realizacji którego Autorka aktywnie uczestniczyła. Miał on na celu zaprojektowanie oraz implementację inteligentnego systemu umożliwiającego zarządzania zasobami udostępnianymi w gridzie i wykorzystującego w tym celu technologię agentów programowych oraz ontologie domenowe i semantyczne. 3
W bardzo obszernym rozdziale piątym Autorka skoncentrował większą część oryginalnego materiału rozprawy ukierunkowanego na opracowanie metod i mechanizmów pozwalających na wsparcie użytkownika bez obszernej wiedzy technicznej czy tez dziedzinowej tak, aby mógł on efektywnie współdziałać z systemem gridowym, możliwie jak najlepiej wykorzystując jego zasoby sprzętowe i programowe. Wspomniane metody i mechanizmy bazują na wykorzystaniu możliwości oferowanych przez aparat ontologii zarówno do prezentacji wiedzy dziedzinowej ekspertów, jak i bezpośrednio do wspierania użytkownika gridu w wyborze zasobów oraz negocjowaniu kontraktów SLA. W szczególności, w rozdziale tym zaproponowano kilka oryginalnych metod selekcji zasobów czy to bazujących na zastosowaniu języka i protokołu SPARQL zapytań do opisu zasobów w formacie RDF, czy to opierających się na zastosowaniu formalizmu i algorytmów grafowych, czy wreszcie próbujących wykorzystać klasyczną analizę wielokryterialną w zagadnieniu podejmowaniu decyzji w oparciu o rekomendacje ekspertów. Efektywność i możliwości zaproponowanych metod Autorka stara się zilustrować, przytaczając szereg przykładów cząstkowych. W rozdziale piątym dokonano zwięzłego podsumowania pracy, w tym jej oryginalnych elementów, a także wskazano kierunki dalszych badań w obszarze tematyki rozprawy. W szczególności, do kierunków tych należy możliwość wykorzystania agentów programowych w przypadku systemów chmurowych, a także zagadnienie reprezentacji kontraktów SLA dla takich systemów. 3. Wkład Autora i zaprezentowana wiedza Uwzględniając powyższe omówienie zawartości pracy oraz ogólną pozytywną ocenę jej zawartości merytorycznej, uważam, że za bezsporne osiągnięcia Autora należy uznać następujące rezultaty: 1. Podstawowym wynikiem o ogólnym charakterze jest wykazanie możliwości zapewnienia skutecznego wsparcia dla użytkowników systemów gridowych, bez obszernej wiedzy technicznej czy tez dziedzinowej, tak, aby mogli oni efektywnie współdziałać z systemem gridowym, jak najlepiej wykorzystując jego zasoby sprzętowe i programowe. Powyższe wsparcie oparte jest wykorzystaniu metod i narzędzi ontologii zarówno w zakresie prezentacji wiedzy dziedzinowej ekspertów, jak i bezpośrednio do wspierania użytkownika gridu w wyborze zasobów oraz negocjowaniu kontraktów SLA. 2. Osiągniecie powyższego wyniku wymagało opracowania szeregu ontologii dziedzinowych, jak również zaproponowania oryginalnych metod selekcji zasobów i negocjowaniu kontraktów SLA czy to bazujących na zastosowaniu języka i protokołu SPARQL zapytań do opisu zasobów w formacie RDF, czy to opierających się na 4
wykorzystaniu formalizmu grafowego i algorytmów grafowych, czy też bazujących na wykorzystaniu analizy wielokryterialnej w zagadnieniu podejmowaniu decyzji na podstawie rekomendacji ekspertów. Jako przykład wspomnianych ontologii może służyć ontologia dziedzinowa dla niezwykle ważnego obszaru aplikacyjnego jakim jest obliczeniowa algebra liniowa. 3. Wśród zaproponowanych metod selekcji zasobów i negocjowania kontraktów SLA na szczególne wyróżnienie z racji swojej innowacyjności oraz przydatności praktycznej zasługuje podejście oparte na wykorzystaniu analizy wielokryterialnej. Podejście to zorientowane jest na użytkowników, którzy nie są pewni jakiej metody/narzędzia należy użyć do rozwiązania problemu lub/i nie wiedzą jak należy wyspecyfikować wymagania dotyczącego niezbędnego zasobu programowosprzętowego. Jednocześnie użytkownicy ci dysponują określonymi preferencjami dotyczącymi stopnia ważności poszczególnych kryteriów selekcji. 4. Praktyczna przydatność zaproponowanych w pracy metod została pokazana na przykładzie szeregu scenariuszy testowych, takich jak np. wykorzystanie analizy wielokryterialnej w celu wyboru zasobów dla rozwiązania problemu znalezienia najmniejszej wartości własnej dla bardzo dużej macierzy charakteryzującej się rzadką strukturą i dobrze uwarunkowanej. Uzyskane wyniki zostały opublikowane w 14 pracach w języku angielskim, przy czym jedna publikacje ukazały się w czasopismach z tzw. listy filadelfijskiej, zaś 8 prac opublikowano w materiałach reprezentatywnych konferencji międzynarodowych indeksowanych w Web of Science. Świadczy to pozytywnie o stopniu weryfikacji uzyskanych rezultatów przez międzynarodową społeczność specjalistów zajmujących się rozpatrywaną dziedziną. Z omówienia treści pracy, które przytoczono w punkcie 2 niniejszej recenzji, wynika, iż trzy pierwsze rozdziały rozprawy poświęcone są w dużym stopniu krytycznemu przedstawieniu stanu wiedzy w zakresie tematyki pracy, potwierdzając w ten sposób ogólny stan wiedzy w zakresie dyscypliny Informatyka, ze szczególnym uwzględnieniem zagadnień przetwarzania informacji w systemach gridowych, jak również technologii agentowych, problemów wykorzystania ontologii do reprezentacji wiedzy dziedzinowej oraz podstaw analizy wielokryterialnej w systemach podejmowania decyzji. Jakość tych rozdziałów nie budzi moich istotnych zastrzeżeń. Świadczą one o dużej wiedzy Autora w zakresie tematyki badań, popartej szerokim doświadczeniem praktycznym związanym m.in. z aktywnym udziałem w realizacji projektu Agents in Grid. Również moja opinia o bibliografii wykorzystanej w pracy oraz jej kompletności jest pozytywna. 5
4. Poprawność pracy i uwagi krytyczne Poprawność treści pracy nie wzbudza moich istotnych zastrzeżeń, a stwierdzenia w niej zawarte wydają się być godne zaufania, co wynika w szczególności z dosyć szczegółowych uzasadnień, popartych w pewnym stopniu zamieszczonymi w pracy cząstkowymi przykładami praktycznego wykorzystania zaproponowanych metod selekcji zasobów i negocjowania kontraktów SLA. Tym niemniej właśnie aspekt badań eksperymentalnych, jakże istotnych dla potwierdzenia efektywności opracowanych metod, budzi najwięcej moich wątpliwości i skłania do uwag krytycznych czy też spostrzeżeń o charakterze dyskusyjnych, wśród których wymienić należy: 1. Prezentacja praktycznych aspektów i efektywności opracowanych zyskałaby bardzo na przejrzystości dzięki jasnemu przedstawieniu w jednym miejscu charakterystyk i interfejsów użytkownika systemów gridowych, dla których można wykorzystać zaproponowane metody czy do których odnoszą się opisane w pracy cząstkowe przykłady zastosowań. Brak takiego przedstawienia utrudnia czytelnikowi analizę rzeczywistej kontrybucji dysertacji do rozwiązania problemu wsparcia użytkowników przy efektywnym wykorzystaniu gridów w praktyce. 2. Z tekstu pracy nie wynika jednoznacznie czy opracowane metody zostały zaimplementowane w postaci rzeczywistego oprogramowania. Jeśli tak, to jakie technologie programistyczne zostały wykorzystane w stworzonym oprogramowaniu, na przykład, w celu wdrożenia technologii agentów programowych? 3. W tekście pracy nie znalazłem klarownej analizy i porównania sfer zastosowań oraz efektywności zaproponowanych metod. W tej sytuacji rodzi się pytanie, na które też nie znalazłem odpowiedzi, na jakiej podstawie sam użytkownik mógłby decydować, którą z dostępnych metod powinien zastosować? 4. Jak już wspomniałem w punkcie 1 mojej recenzji, w ostatnim okresie typowe architektury gridowe straciły istotnie na znaczeniu i są wypierane przez rozwiązania chmurowe. Sposób funkcjonowania i udostępniania chmur różni się istotnie, a niekiedy wręcz radykalnie, w porównaniu z gridami. Ogranicza to zakres stosowalności wyników uzyskanych w recenzowanej rozprawie. Autorka próbuje w podsumowaniu pracy nawiązać do tego problemu, lecz czyni to w sposób mocno lakoniczny i w moim odczuciu niezbyt przekonywujący. 5. Podsumowanie Przytoczone wyżej uwagi krytyczne nie umniejszają wysokiej wartości merytorycznej pracy, która stanowi istotny i oryginalny wkład Autora w rozwój metod i algorytmów organizacji obliczeń w architekturach typu Grid, co pozwala ją jednoznacznie zakwalifikować do dyscypliny Informatyka. 6
Podsumowując recenzję, stwierdzam więc, że moja generalna opinia o pracy Application of semantic analysis methods to increase the efficiency of grid usage jest zdecydowanie pozytywna. Uważam, że przedstawiona mi do recenzji praca zawiera samodzielne rozwiązanie przez doktoranta ważnego i trudnego problemu naukowego, co w pełni odpowiada wymaganiom stawianym rozprawom doktorskim przez odnośną ustawę o tytule i stopniach naukowych. Na tej podstawie wnioskuję o dopuszczenie pracy do publicznej obrony celem uzyskania przez Autora stopnia doktora nauk technicznych w zakresie informatyki. Prof. dr hab. inż. Roman Wyrzykowski 7