Autoreferat Joanna Domańska 30 grudnia 2014 1 Imię i Nazwisko Joanna Domańska 2 Posiadane dyplomy i stopnie naukowe Dyplom doktora nauk technicznych w dyscyplinie informatyka obroniony dn. 26 stycznia 2005 przed Radą Naukową Instytutu Informatyki Teoretycznej i Stosowanej PAN w Gliwicach. Dyplom magistra inżyniera informatyki obroniony z wyróżnieniem dn. 6 maja 1994 na Wydziale Automatyki, Elektroniki i Informatyki Politechniki Śląskiej w Gliwicach. 3 Informacje o dotychczasowym zatrudnieniu w jednostkach naukowych Od 10/1994 Instytut Informatyki Teoretycznej i Stosowanej PAN w Gliwicach. W okresie 10/1994-12/1994 na stanowisku: asystentstażysta, 01/1995-05/2003 na stanowisku: asystent, 06/2003-02/2005 na stanowisku: specjalista informatyk, 03/2005-03/2014 na stanowisku: adiunkt, od 04/2014 na stanowisku: specjalista. 10/2007-08/2012 Katedra Informatyki Wyższej Szkoły Biznesu w Dąbrowie Górniczej na stanowisku: adiunkt. 1
4 Opis osiągnięcia naukowego 4.1 Tytuł osiągnięcia naukowego Poprawa efektywności mechanizmów aktywnego zarządzania buforami w obecności ruchu samopodobnego. 4.2 Autorzy, tytuły publikacji, rok wydania, nazwa wydawnictwa W skład osiągnięcia naukowego wchodzi cykl czterech publikacji powiązanych tematycznie, opublikowanych w czasopismach uwzględnianych w bazie Journal Citation Reports [A] J. Domańska, A. Domański, D.R. Augustyn, J. Klamka, A RED modified weighted moving average for soft real-time application, International Journal of Applied Mathematics and Computer Science, Vol. 24, Issue 3, pp. 697-707, September 2014. IF: 1.39 Udział w pracy 30% [B] J. Domańska, A. Domański, T. Czachórski, J. Klamka, Fluid flow approximation of time-limited TCP/UDP/XCP streams, Bulletin of the Polish Academy of Sciences: Technical Sciences, Vol. 62, Issue 2, pp. 217-225, 2014. IF: 1.0 Udział w pracy 40% [C] J. Domańska, D.R. Augustyn, A. Domański, The choice of optimal 3-rd order polynomial packet dropping function for NLRED in the presence of self-similar traffic, Bulletin of the Polish Academy of Sciences: Technical Sciences, Vol. 60, Issue 4, pp. 779-786, 2012. IF: 0.98 Udział w pracy 34% [D] J. Domańska, A. Domański, T. Czachórski, The Drop-From-Front Strategy in AQM, Next Generation Teletraffic and Wired/Wireless Advanced Networking, LNCS 4712, Springer Berlin, pp. 61-72, 2007. IF: 0.402 1 Udział w pracy 45% 1 Według Komunikatu Nr 9 Ministra Nauki i Szkolnictwa Wyższego z dnia 29 lutego 2008 czasopismo LNCS jest w roku 2007 traktowane jako wyróżnione w Journal Citation Reports. Podano Impact Factor z 2005 roku. 2
4.3 Omówienie celu naukowego wymienionych prac oraz osiągniętych wyników wraz z omówieniem ich ewentualnego wykorzystania 4.3.1 Wprowadzenie Internet przyniósł ze sobą nie tylko ogromne zmiany w pracy i stylu życia wielu ludzi, ale również stał się źródłem licznych problemów badawczych na wielu poziomach zainteresowań świata naukowego. Ponieważ Internet z sieci o ograniczonym rozmiarze, przeznaczonej do transferu danych stał się olbrzymią siecią publiczną, udostępniającą różnego rodzaju usługi, dlatego wraz z rozrostem Internetu zaczęła mieć znaczenie poprawa jakości usług (ang. Quality of Service, QoS) poprzez zwiększenie przepustowości, zmniejszenie opóźnień i strat. Mnogość protokołów oraz technologii prowadzi do ciągłego wzrostu złożoności Internetu jako całości. Internet jest obecnie tak rozbudowaną strukturą, że całościowe, globalne zmiany są praktycznie niemożliwe. Na szczęście struktura Internetu pozwalała na wprowadzanie zmian, które początkowo można implementować na niewielkim obszarze, a potem ewentualnie dane rozwiązania rozprzestrzenić. Funkcjonalność sieci można podzielić na warstwy, z których każda ma swoje odrębne zadanie. Najbardziej znana klasyfikacja oparta jest o model odniesienia zaproponowany przez organizację ISO (ang. International Standards Organization). Warstwa trzecia według tego modelu, nazywana warstwą sieciową, jest odpowiedzialna za określenie drogi pakietu od źródła do przeznaczenia. Zapewnienie pożądanej jakości obsługi dla pakietów na całej trasie od nadawcy do odbiorcy jest tematem prac badawczych od wielu lat. Nie jest to zadanie proste. Wymaga ono przede wszystkim odpowiedniej, starannie zaplanowanej architektury sieci, która będzie na tyle uniwersalna, że zostanie powszechnie zaakceptowana. Rozwój sieci Internet wymaga też nowych rozwiązań dotyczących sterowania natężeniem ruchu w taki sposób, by zwiększyć jakość usług oferowaną przez sieć na poziomie warstwy sieciowej. Problem zapewnienia jakości usług w sieci Internet - mierzonej czasem przesyłu, jego regularnością, a także niezawodnością przesyłu wyrażoną prawdopodobieństwem straty pakietu - stał się przedmiotem wielu prac. Jest to związane z aplikacjami czasu rzeczywistego, takimi jak telefonia sieciowa czy też przesyły multimedialne, coraz powszechniej realizowane w Internecie. Organizacja IETF (Internet Engineering Task Force) dla zapewnienia jakości usług zaproponowała architektury Integrated Services (IntServ) oraz Differentiated Services (DiffServ). W ich ramach zaproponowano wiele mechani- 3
zmów dla zapewnienia jakości usług, w szczególności dotyczących zarządzania kolejkami w routerach. Aby zwiększyć przepustowości sieci, zmniejszyć opóźnienia i wyeliminować przypadki zawłaszczeń łączy organizacja IETF poleca algorytmy aktywnego zarządzania buforami (ang. Active Queue Management, AQM), które uwzględniają mechanizmy prewencyjnego odrzucania pakietów, uaktywniające się jeszcze przed całkowitym zapełnieniem buforów routera. Wydajność protokołów internetowych zależy w dużej mierze od zastosowanego w przełącznikach sieciowych algorytmu zarządzania kolejkami. Zarządzanie kolejkami to realizacja algorytmu, którego celem jest właściwe dobranie długości kolejki pakietów, poprzez ich odrzucanie, kiedy jest to konieczne lub wydaje się uzasadnione. Procesy Markowa w modelowaniu sieci komputerowych, aspekty numeryczne Modelowanie sieci komputerowych pomaga ich twórcom przewidzieć zachowanie projektowanej sieci, scharakteryzować obciążenie sieci, zlokalizować miejsca zatłoczeń, a także przewidzieć pracę sieci przy rosnącym obciążeniu. Potrzeba modelowania pracy sieci komputerowych pojawia się na wielu poziomach ich projektowania i użytkowania: zarówno we wstępnej fazie projektowania, aby możliwa była realna ocena jakości i porównanie projektowanego mechanizmu z już istniejącymi, jak również w fazie użytkowania, aby umożliwić dostrojenie parametrów oraz konfiguracji urządzeń i protokołów sieciowych do konkretnych zastosowań. Ocena wydajności Internetu wymaga opracowania odpowiednich modeli nie tylko mechanizmów sieciowych, ale również realistycznego modelu natężenia ruchu przesyłanego za pomocą tych mechanizmów. Dopiero złożenie tych dwóch elementów pozwala na uzyskanie prawidłowych wyników modelowania sieci, zgodnych z pomiarami przeprowadzanymi w rzeczywistych, istniejących obiektach. Aby ocenić wydajność danego systemu komputerowego, potrzebne są narzędzia do jej przewidywania. Konstruowane modele sieci komputerowych mogą być analityczne lub symulacyjne. W przypadku modelowania pracy sieci komputerowych - jak również dla wielu innych praktycznych problemów rzeczywistego świata - modele analityczne oparte na teorii kolejek (teorii masowej obsługi) mogą często dostarczać potrzebnych odpowiedzi. Początek teorii kolejek przypada na lata 1909-1918, kiedy to A.K. Erlang i T.O. Engset przeprowadzili probabilistyczną analizę zachowania modeli kolejkowych odzwierciedlających działanie central telefonicznych. Modele kolejkowe w postaci sieci stanowisk obsługi są uznanym i stosowanym od dawna 4
narzędziem analizy i oceny efektywności pracy systemów komputerowych. W klasycznej teorii kolejek ruch jest opisywany jako sekwencja momentów czasowych w których klienci nadchodzą do systemu lub też jako sekwencja czasów pomiędzy nadejściami. W związku z tym klienci są numerowani w kolejności nadchodzenia, a n-ty przedział czasowy jest czasem pomiędzy nadejściem (n 1)-go i n-tego klienta. W cyfrowych systemach komputerowych i telekomunikacyjnych występuje zazwyczaj naturalna jednostka czasu. Podejście to datuje się od czasów sieci ATM. Przykładowo - w przypadku sieci ATM stały czas przesyłu jednej komórki jest właśnie taką naturalną jednostką czasu - port wyjściowy w przełączniku ATM przesyła komórkę w regularnych odstępach czasu z częstotliwością zdeterminowaną prędkością wyjściowej linii transmisyjnej. Z punktu widzenia wydajności bufora, komórki, które nadeszły podczas jednego okresu czasu transmisji, można potraktować jako przybyłe razem na początku tego okresu. Każdy taki okres czasowy nazywany jest slotem czasowym. W modelach czasu dyskretnego zdarzenia występują jedynie w chwilach oznaczających koniec slotu (i zarazem początek następnego slotu). Tak więc w systemach cyfrowych naturalnym sposobem postrzegania ruchu jest liczba nadejść w momentach pomiędzy kolejnymi slotami. Do modeli analitycznych opartych na teorii kolejek zaliczane są tzw. modele markowowskie. W modelach opartych na łańcuchach Markowa stanom badanego systemu odpowiadają stany łańcucha Markowa, a rozwiązując równania wiążące prawdopodobieństwa stanów łańcucha można uzyskać prawdopodobieństwa stanów badanego systemu. Metoda ta pozwala uwzględnić dowolne zależności logiczne pomiędzy stanami, prowadzi jednak w przypadku realistycznych modeli do łańcuchów Markowa o bardzo dużej liczbie stanów. Problemem jest rosnąca bardzo szybko wraz ze złożonością modelu liczba stanów, a więc liczba niewiadomych i liczba równań, które trzeba rozwiązać. Są to przy analizie stacjonarnej równania algebraiczne, a przy analizie stanów nieustalonych równania różniczkowe liniowe pierwszego rzędu. Rozwiązaniem tego typu układu jest wektor prawdopodobieństw stanów łańcucha Markowa w stanie ustalonym lub nieustalonym. W przypadku modeli z czasem dyskretnym szukanie rozwiązania w stanie ustalonym sprowadza się do znalezienia rozwiązania układu równań: p = pp gdzie p jest poszukiwanym wektorem prawdopodobieństw stanów, a P macierzą prawdopodobieństw przejść pomiędzy stanami. Jeżeli liczba stanów jest mała, stosunkowo łatwo jest uzyskać szybkie i dokładne rozwiązanie (wektor prawdopodobieństw stanów), na podstawie którego szacuje się zachowanie badanego systemu. Wraz ze wzrostem złożoności modeli wzrasta przestrzeń stanów i proces uzyskania rozwiązania staje się coraz trudniejszy. 5
Liczba stanów, a więc i wymiar macierzy P jest często w modelach sieci komputerowych rzędu setek tysięcy lub milionów, ponadto macierz P jest często w tych modelach rzadka i źle uwarunkowana, co powoduje, że wykorzystanie popularnych algorytmów numerycznych dla układów równań algebraicznych jest utrudnione. Do rozwiązywania tego typu układów wymagane jest stosowanie specjalnych metod numerycznych, np. metod projekcyjnych. Metody te aproksymują dokładne rozwiązanie rozwiązanie sekwencją rozwiązań otrzymywanych z podprzestrzeni małego rozmiaru. Te projekcje powtarzane są aż do uzyskania zbieżności. Dla dużych, rzadkich macierzy polecaną metodą jest metoda wykorzystująca podprzestrzenie Kryłowa. W wyniku projekcji wielka macierz o wymiarze rzędu milionów jest rzutowana na małą macierz (górna macierz Hessenberga H m, wymiar m rzędu 15). W przypadku dyskretnego modelu w stanie ustalonym problem można sprowadzić do poszukiwania wartości własnej oraz wektora własnego macierzy P. Można w tym celu wykorzystać metodę Arnoldiego, która jest procesem ortogonalnej projekcji na podprzestrzeń Kryłowa K m. Macierz H m reprezentuje ograniczenie przekształcenia liniowego macierzy P na podprzestrzeń K m : H m = V T mpv m gdzie V m = [v 1, v 2,..., v m ] jest ortonormalną bazą podprzestrzeni Kryłowa. Metoda Arnoldiego używa do stworzenia ortonormalnej bazy podprzestrzeni Kryłowa zmodyfikowanej procedury ortogonalizacji Grama-Schmidta. Metoda znajdowania wartości własnych przy użyciu procesu Arnoldiego wymaga: 1. Inicjalizacji czyli wyboru rozmiaru podprzestrzeni Kryłowa (m) oraz wektora początkowego v 1, znormalizowanego tak, że v 1 2 = 1, 2. Zastosowania tzw. procesu Arnoldiego do uzyskania ortonormalnej bazy podprzestrzeni Kryłowa oraz górnej macierzy Hessenberga H m, 3. Obliczenia aproksymowanych wartości własnych oraz odpowiadających im wektorów własnych. Do obliczenia wartości własnych macierzy H m można zastosować dowolną metodę odpowiednią dla małych systemów np. metodę iteracji odwrotnych. Aproksymacja wartości własnych macierzy P może być uzyskana z wartości własnych macierzy H m. Jeżeli λ i jest wartością własną macierzy H m, a y i jest odpowiadającym jej wektorem własnym: H m y i = λ i y i 6
wtedy λ i można traktować jako aproksymację wartości własnej macierzy P. Wykorzystując uzyskaną w procesie Arnoldiego ortonormalną bazę podprzestrzeni Kryłowa można aproksymować prawy wektor własny macierzy P poprzez V m y i. W opisanej metodzie jedyną operacją związaną z macierzą P jest jej mnożenie przez wektor i dlatego metoda ta jest atrakcyjna dla dużych i rzadkich macierzy. Mechanizmy aktywnego zarządzania buforami na przykładzie algorytmu RED Wydajność protokołu TCP zależy w dużej mierze od zastosowanego w sieci algorytmu zarządzania kolejkami. Zarządzanie kolejkami można podzielić na pasywne i aktywne. Pasywne zarządzanie kolejkami nie zakłada wcześniejszego powiadamiania nabywców o konieczności obniżenia natężenia ruchu w celu zmniejszenia przeciążenia sieci. Polega ono na stuprocentowym odrzucaniu pakietów, jeśli nie ma dla nich miejsca w buforze. Algorytmy pasywnego zarządzania różnią się między sobą jedynie sposobem wyboru pakietu odrzucanego. Z uwagi na ograniczenia algorytmów pasywnych, których działanie powoduje ograniczenie transmisji wszystkich nadawców i wymusza niepotrzebną synchronizację ich pracy, zalecane jest stosowanie w routerach algorytmów aktywnego zarządzania buforami. Stosują one prewencyjne odrzucanie pakietów, co zapewnia niejawny mechanizm powiadamiania nadawców powodujących przeciążenia. Przychodzące pakiety są odrzucane losowo, co zapobiega ograniczeniu transmisji przez wszystkich nadawców równocześnie i przez to eliminuje globalną synchronizację. Prawdopodobieństwo prewencyjnego odrzucenia pakietu rośnie wraz ze wzrostem poziomu przeciążenia. Podstawowym algorytmem aktywnego zarządzania kolejkami jest algorytm RED (Random Early Detection) czyli algorytm wczesnej losowej detekcji. Został on zaproponowany przez Sally Floyd i Vana Jacobsona w 1993 roku. Jego działanie polega na tym, że ustala się dwie progowe wartości zapełnienia bufora: Min th i Max th oraz oblicza średnią kroczącą długości kolejki oznaczaną zazwyczaj w literaturze przez avg: avg = (1 w q )avg + w q q Wartość q jest aktualną długością kolejki, wartość avg jest poprzednią wartością avg, natomiast w q to parametr wagowy, którego wartość jest zwykle dużo mniejsza od jeden, a więc avg zmienia się znacznie wolniej niż q. Zatem avg wskazuje trwałe przeciążenia sieci odzwierciedlając długoterminowe zmiany q. 7
Jeżeli średnia długość kolejki jest mniejsza od wartości Min th, wtedy akceptowane są wszystkie przychodzące do bufora pakiety. Jeżeli wartość avg zawiera się w przedziale (Min th, Max th ), wtedy przychodzące pakiety odrzucane są z prawdopodobieństwem: avg Min th p = p max Max th Min th Wartość p max odpowiada prawdopodobieństwu odrzucenia pakietu na poziomie Max th. Jeżeli średnia długość kolejki przekracza wartość Max th, wtedy odrzucane są wszystkie przychodzące do bufora pakiety. Prawdopodobieństwo odrzucenia pakietu p jest więc uzależnione od obciążenia sieci - ma małą wartość dla mniejszego obciążenia i zwiększa się wraz ze wzrostem przeciążenia. Efektywne działanie mechanizmu RED uzależnione jest od odpowiedniego doboru jego parametrów. Prowadzono prace nad określeniem wpływu poszczególnych parametrów algorytmu na jego wydajność. Zbyt duża wartość maksymalnego prawdopodobieństwa odrzucenia p max powoduje zmniejszenie przepustowości. Zbyt mała wartość tego parametru wpływa na niemożność zapobiegania globalnej synchronizacji. Zalecaną wartością parametru p max jest 0.1. Średnia długość kolejki avg powinna umożliwiać uwzględnienie długotrwałych przeciążeń sieci, a jednocześnie odrzucanie przypadków krótkotrwałych przeciążeń. Ważny jest więc odpowiedni dobór parametru w q. Zbyt mała wartość tego parametru powoduje znacznie opóźnioną reakcję na przeciążania, natomiast zbyt duża wartość tego parametru powoduje zbytni wpływ aktualnej długości kolejki. Początkowo przyjęto wartości w q równe 0.001 lub 0.002 jako optymalne dla poprawnego działania mechanizmu RED. Jednakże późniejsze prace wykazały, że w niektórych przypadkach wyższą wydajność systemu gwarantuje przyjęcie przez ten parametr wartości 0.05 lub 0.07. Aby zwiększyć wydajność algorytmu RED opracowano wiele jego odmian. Można je sklasyfikować według modyfikacji sposobu obliczania zmiennej sterującej i (lub) funkcji odrzucania pakietów oraz według sposobu konfigurowania i ustawiania parametrów algorytmu. Charakterystyka ruchu w Internecie Prace badawcze związane z ruchem w sieci Internet mają na celu zapewnienie lepszego zrozumienia współczesnego Internetu, m.in. poprzez przedstawienie aktualnej charakterystyki ruchu w Internecie w oparciu o dużą liczbę danych doświadczalnych oraz tworzenie coraz bliższych rzeczywistości modeli ruchu. Zrozumienie natury ruchu w nowoczesnym Internecie ma bowiem klu- 8
czowe znaczenie dla społeczności internetowej, wspiera optymalizację i rozwój protokołów i urządzeń sieciowych, a ponadto poprawia bezpieczeństwo aplikacji sieciowych oraz ochronę użytkowników sieci. Już w latach 90-tych odkryto, że ruch w sieciach pakietowych ma skomplikowany statystycznie charakter, tzn. występują w nim takie zjawiska, jak samopodobieństwo (ang. self-similarity), zależności długoterminowe (ang. longrange dependence) oraz spiętrzenia (ang. burstiness). Cecha samopodobieństwa wykryta w natężeniu przesyłów sieciowych oznacza, że własności statystyczne procesu reprezentującego ruch w sieci nie zależą od skali czasu. Pociąga to za sobą długoterminową autokorelację tego procesu, co ma wielki wpływ na działanie sieci, zwiększa bo wiem długości kolejek pakietów obserwowane w buforach, wydłużając czas reakcji i podnosząc prawdopodobieństwo utraty pakietu z powodu przepełnienia bufora. Obniża to jakość usług świadczonych przez sieć. Rozpoczęto wtedy poszukiwania nowych lub adaptację znanych typów procesów stochastycznych do potrzeb modelowania tych negatywnych zjawisk w ruchu sieciowym. Badano między innymi takie procesy, jak: ułamkowy ruch Browna, mapy chaotyczne, procesy FARIMA, falki i miary multifraktalne oraz procesy oparte na łańcuchach Markowa: SSMP (ang. Special Semi-Markov Process), MMPP (ang. Markov-Modulated Poisson Process), BMAP (ang. Batch Markovian Arrival Process). Wszystkie wymienione powyżej procesy mają swoje wady i zalety, jednak za procesami opartymi na łańcuchach Markowa przemawia wiele argumentów. Metody analityczne oraz numeryczne związane z łańcuchami Markowa są stosunkowo dobrze rozwinięte, łatwo zweryfikować je za pomocą symulacji zdarzeń dyskretnych, a dodatkowo markowowski charakter źródeł ruchu pozwala na wykorzystanie do modelowania sieci Internet dobrze poznanych i wykorzystanych od dawna modeli kolejkowych. Prawidłowy model ruchu powinien nie tylko w pełni odzwierciedlać wymagane cechy statystyczne rzeczywistego ruchu. Powinien również w łatwy sposób łączyć się z modelami mechanizmów sieciowych. 4.3.2 Wpływ samopodobnej natury ruchu internetowego na działanie mechanizmów aktywnego zarządzania buforami Prace wykonane w ramach opisywanego osiągnięcia miały na celu zbadanie wpływu modyfikacji mechanizmu RED na jego wydajność - w obecności ruchu samopodobnego. Cel naukowy - umożliwienie sformułowania wniosków, jakie mechanizmy aktywnego zarządzania buforami należy stosować, aby poprawić jakość usług w rzeczywistych sieciach. Problem badania charakterystyki ruchu w Internecie oraz tworzenia wiarygodnych jego modeli został 9
przybliżony pokrótce we wprowadzeniu. W monografii [1] 2, która została dołączona do wniosku, zawarto szerszy opis tego zagadnienia, wraz z bogatym przeglądem literaturowym. Publikacje [B], [C] i [D] wykorzystują model markowowski źródła ruchu samopodobnego SSMP. W modelu tym czas jest dyskretny i podzielony na przedziały czasu zwane slotami. Prawdopodobieństwo nadejścia pakietu jest określone stanem osobnego łańcucha Markowa, zwanego modulatorem. Przyjęto, że modulator ma 5 stanów (i = 0, 1,..., 4), pakiet nadchodzi tylko wtedy, gdy modulator jest w stanie i = 0. Macierz prawdopodobieństw przejść między stanami modulatora jest funkcją tylko dwu parametrów q i a: A = 1 1/a 1/a 2... 1/a n 1 1/a 1/a 2... 1/a n 1 q/a 1 q/a 0... 0 (q/a) 2 0 1 (q/a) 2... 0............... (q/a) n 1 0 0... 1 (q/a) n 1 co ułatwia ich dobór w funkcji zadanej wartości średniej oraz parametru Hursta strumienia (parametr Hursta jest miarą stopnia samopodobieństwa procesu). Model ten odtwarza ruch sieciowy, który wykazuje cechę samopodobieństwa w kilku skalach czasu. Liczba stanów modulatora ma wpływ na zakres czasu, w którym proces wykazuje zależności długoterminowe. W ramach prac związanych z publikacjami [B], [C] i [D] utworzono symulacyjny model odpowiedniego mechanizmu AQM. Wykorzystano do tego celu pakiet Omnet++, który jest symulatorem zdarzeń dyskretnych opartym o język C++. Weryfikację poprawności modelu przeprowadzono tworząc analogiczny model markowowski. Modele zawierają źródło ruchu (samopodobne lub geometryczne - jako dyskretny odpowiednik źródła poissonowskiego), bufor AQM o skończonej pojemności oraz stanowisko obsługi reprezentujące czas obsługi pakietu w routerze (czas pomiędzy pobraniem pakietu z kolejki wyjściowej, a całkowitym opuszczeniem węzła). Model Markowa definiuje stan systemu AQM poprzez wektor stanu zawierający następujące siedem elementów: liczba pakietów w kolejce, część całkowita średniej długości kolejki avg, 4 flagi przyjmujące wartości zero lub jeden i reprezentujące część ułamkową średniej długości kolejki avg, 2 Numer publikacji podano zgodnie z załącznikiem Wykaz publikacji 10
flaga reprezentująca zajętość stanowiska obsługi. W przypadku źródła ruchu samopodobnego dochodzi jeszcze jeden element - faza modulatora przyjmująca wartości z przedziału od jeden do pięć. Część ułamkowa średniej długości kolejki avg obliczana jest na podstawie czterech flag w następujący sposób: [(i 1)0.25] + (i0.25), 2 gdzie i jest numerem flagi różnej od zera. Jeżeli wszystkie flagi są równe zero, wtedy część ułamkowa średniej długości kolejki avg jest też równa zero. Ze względu na to, że macierz tranzycji takiego modelu markowowskiego jest rzadka i źle uwarunkowana oraz na znaczną liczbę stanów determinującą rozmiar układu równań koniecznego do rozwiązania, aby uzyskać prawdopodobieństwo wszystkich stanów systemu, wykorzystano projekcyjną metodę podprzestrzeni Kryłowa, opisaną pokrótce we wprowadzeniu. Ze względu na trudności natury numerycznej (wzrost liczby stanów przekraczający możliwości obliczeniowe), mechanizmy AQM były w pracach [B], [C] i [D] analizowane w tzw. pętli otwartej czyli bez uwzględniania wpływu protokołów wyższych warstw. Publikacja [A] opisuje użycie aproksymacji przepływowej (ang. fluid flow) do zbadania zachowania mechanizmów AQM w środowisku protokołów TCP, UDP oraz XCP, analizowanych wcześniej w pętli otwartej. Model matematyczny sieci w aproksymacji przepływowej bazuje na zależnych od siebie równaniach różniczkowych zwyczajnych pierwszego rzędu. Każde z równań odpowiada jednej z poszukiwanych niewiadomych. Techniki modelowania przepływowego są polecane w literaturze do modelowania ruchu internetowego. Ten rodzaj modeli jest szczególnie polecany do odtwarzania ruchu generowanego przez protokół TCP. W modelach przepływowych zdarzenia są generowane, gdy zmienia się natężenie przychodzącego strumienia. Stanowi to przeciwieństwo modeli na poziomie pakietów, które odtwarzają zachowanie każdego pakietu w sieci. Model przepływowy odtwarza zachowanie każdego strumienia w sieci. Skutkuje to tym, że model sieci na poziomie przepływowym może opisywać strumienie w sieci, w której przesyłana jest duża liczba pakietów. Poniżej przedstawiono wyniki uzyskane w poszczególnych publikacjach, wraz z zaznaczonych wkładem własnym. Zmiana sposobu wyboru pakietu odrzucanego w kolejkach RED i DSRED (publikacja [D]) W mechanizmach RED oraz jego odmianach opisywanych w literaturze 11
pakiet przeznaczony do odrzucenia pobierany jest zazwyczaj z końca kolejki. Wynika to z faktu, że twórczyni mechanizmu RED: Sally Floyd, była zdania, że jeżeli mechanizm RED pracuje prawidłowo, wtedy średnia długość kolejki w buforze jest niska i nie ma specjalnego znaczenia czy odrzucany jest pakiet z początku kolejki czy też z jej końca. Omawiana publikacja zawiera rewizję tego stwierdzenia badając zachowanie kolejki RED w obecności ruchu samopodobnego. Wykazano, że w przypadku nieuwzględniania cechy samopodobieństwa wyniki są zgodne ze stwierdzeniem S. Floyd, tzn. sposób pobierania pakietu do odrzucenia ma niewielki wpływ (< 1%) na zmianę średniej długości kolejki w przypadku małego obciążenia, a jeżeli parametry są tak dobrane, że kolejka z mechanizmem RED jest bardzo obciążona, wtedy wzrasta znaczenie sposobu wyboru pakietu do odrzucenia: dla przypadku pobierania pakietu z początku kolejki kolejka jest dwukrotnie krótsza. Sytuacja zmienia się, gdy na rozważany jest ruch wykazujący cechę samopodobieństwa. Wtedy nawet dla przypadku małego obciążenia zauważany jest wpływ wyboru pakietu z początku kolejki - średnia długość jest wtedy mniejsza o ok. 16%, co potwierdza przewagę pobierania pakietu z początku kolejki w przypadku rozważania rzeczywistych kolejek w routerach, gdzie ruch pakietów wykazuje cechę samopodobieństwa. Analogiczne badania przeprowadzono również dla modyfikacji mechanizmu RED - algorytmu Double-Slope RED (DSRED). Algorytm ten ma zmienioną (w stosunku do mechanizmu RED) funkcję prawdopodobieństwa odrzucania pakietów. Trzy wartości progowe K l, K m i K h (zazwyczaj K m = (K l +K h )/2) oraz parametr γ determinują dwa poziomy nachylenia tej funkcji: p(avg) = 0 jeżeli avg < K l α(avg K l ) jeżeli K l avg < K m 1 γ + β(avg K m ) jeżeli K m avg < K h 1 jeżeli K h avg N gdzie 2(1 γ) 2γ α =, β = K h K l K h K l Zmodyfikowana funkcja powoduje, że algorytm ten jest bardziej elastyczny (więcej parametrów do dopasowania efektywnego działania) i w porównaniu z klasycznym mechanizmem RED ma mniejszą średnią długość kolejki. Wprowadzenie usuwania z początku kolejki poprawia wydajność mechanizmu DSRED w sposób analogiczny do mechanizmu RED, co potwierdza konieczność uwzględniania cechy samopodobieństwa w modelach mechanizmów aktywnego zarządzania buforami oraz sugeruje pobieranie pakietów 12
do odrzucenia z początku kolejki w routerach pracujących w rzeczywistych sieciach. Pobieranie pakietu z początku kolejki można wykorzystać nie tylko w mechanizmie DSRED, ale również w innych odmianach mechanizmu RED. Uzyskane wyniki potwierdziły, że zwiększa to efektywność mechanizmów AQM w obecności ruchu samopodobnego, a więc jest polecane celem poprawy jakości usług sieciowych. Wkład autorski: Postawienie problemu badawczego: sprawdzenie czy wpływ sposobu pobierania pakietu do odrzucenia na działanie mechanizmu AQM jest zależny od charakterystyki ruchu; Współudział w wyborze mechanizmów AQM; Utworzenie symulacyjnego i markowowskiego modelu mechanizmów RED i DSRED; Współudział w interpretacji uzyskanych wyników; Współudział w redakcji tekstu publikacji. Modyfikacja funkcji określającej prawdopodobieństwo odrzucenia pakietu - mechanizm NLRED (publikacja [C]) Badania opisane w publikacji [C] oceniały wpływ samopodobnej natury ruchu na mechanizm RED z nieliniową funkcją prawdopodobieństwa odrzucania pakietów. W mechanizmie NLRED opisanym w literaturze liniowa funkcja odrzucania pakietów jest zastąpiona funkcją kwadratową. Publikacja [C] wykorzystuje mechanizm NLRED z funkcją odrzucania pakietów w postaci wielomianu trzeciego rzędu: 0 dla x < Min th p(x, a 1, a 2, p max ) = ϕ 0 (x) + a 1 ϕ 1 (x) + a 2 ϕ 2 (x) dla Min th x Max th 1 dla x > Max th dla którego zbiór funkcji bazowych jest zdefiniowany następująco: x Min th ϕ 0 (x) = p max, Max th Min th ϕ 1 (x) = (x Min th )(Max th x), ϕ 2 (x) = (x Min th ) 2 (Max th x) 13
Znalezienie optymalnych wartości parametrów p max, a 1 i a 2 dla danego typu źródła ruchu potraktowano jako problem optymalizacji w przestrzeni trójwymiarowej. Wyniki eksperymentalne wykazały istnienie jednego optymalnego zbioru pararametrów - niezależnie od typu źródła oraz natężenia ruchu. Wyniki uzyskane dla tego optymalnego zbioru parametrów mechanizmu NLRED wykazały, że mechanizm ten ma średni czas oczekiwania pakietu w kolejce dwa i pół razy krótszy aniżeli mechanizm RED - w przypadku źródła poissonowskiego oraz aż cztery razy krótszy w przypadku wybranego źródła samopodobnego. Porównanie z mechanizmem DSRED również wypada na korzyść mechanizmu NLRED. W przypadku ruchu nie wykazującego cechy samopodobieństwa czas oczekiwania w kolejce jest ponad dwukrotnie krótszy, a w przypadku ruchu samopodobnego prawie trzykrotnie krótszy. W publikacji [C] oprócz zaproponowania znaczącej poprawy efektywności mechanizmu NLRED potwierdzono również wpływ charakterystyki ruchu na zachowanie węzła z mechanizmem NLRED, co uzasadnia konieczność stosowania modeli ruchu uwzględniających cechę samopodobieństwa. Wkład autorski: Postawienie problemu badawczego: wpływ samopodobieństwa na efektywność działania mechanizmu RED z nieliniową funkcją odrzucania pakietów; Współudział w zaproponowaniu modyfikacji mechanizmu NLRED celem uzyskania funkcji odrzucania pakietów zwiększającej efektywność utworzonego mechanizmu; Utworzenie symulacyjnego i markowowskiego modelu mechanizmu NLRED; Współudział w interpretacji uzyskanych wyników; Współudział w redakcji tekstu publikacji. Modyfikacja obliczania średniej długości kolejki - mechanizm RE- DwM (publikacja [A]) Publikacja [A] prezentuje wyniki analizy wpływu zmiany sposobu obliczania średniej długości kolejki na wydajność mechanizmu RED w obecności ruchu wykazującego cechę samopodobieństwa. Wykorzystany został mechanizm nazwany REDwM, w którym obliczanie średniej kroczącej długości kolejki A(n) w chwili czasowej n oparte jest na liniowym równaniu różnicowym: A(n) = a 1 A(n 1) + a 2 A(n 2) +... + a k A(n k)+ +b 0 Q(n) + b 1 Q(n 1) +... + b m Q(n m) 14
gdzie a j = const dla j = 1,..., k, b i = const dla i = 0,..., m, A(l) jest średnią długością kolejki w chwili czasu l, a Q(l) jest aktualną długością kolejki w chwili czasu l. Ograniczenia na wartości współczynników a j i b i są następujące: k m a j + b i = 1 a j 0 b i 0. j=1 i=0 Optymalne wartości współczynników zostały znalezione w procesie minimalizacji funkcji wskaźnika jakości. Wyniki uzyskane w przeprowadzonych eksperymentach numerycznych są lepsze niż wyniki uzyskane dla klasycznego mechanizmu RED (dla założonej funkcji wskaźnika jakości opartej o średni czas oczekiwania pakietu w kolejce) o ponad 5%. W przeszłości rozważano wiele modyfikacji klasycznego mechanizmu RED. Niektóre modyfikacje oparte były na zmianie sposobu obliczania prawdopodobieństwa odrzucenia pakietu. Według najlepszej wiedzy autora, nie była dotychczas rozważana w literaturze modyfikacja sposobu obliczania średniej kroczącej długości kolejki w mechanizmie RED. Poprawa mechanizmu RED zaproponowana w publikacji [A] jest więc nowa, a jej zaletą jest fakt, że może być łaczona z zaproponowanymi wcześniej odmianami mechanizmu RED. W publikacji przedstawiono również potwierdzenie większej efektywności mechanizmu REDwM w stosunku do klasycznego mechanizmu RED w rzeczywistej implementacji obu algorytmów w środowisku Linux. Publikacja [A] zawiera również bogaty przegląd literatury potwierdzający sensowność wykorzystania mechanizmów AQM w aplikacjach o miękkich ograniczeniach czasowych (ang. soft-real time). Obsługa ruchu czasu rzeczywistego to zobowiązanie sieci do dostarczania kolejnych pakietów przepływu w taki sposób, że znane jest maksymalne możliwe opóźnienie pomiędzy wysłaniem pakietu, a jego odebraniem. Wprowadzenie możliwości obsługi aplikacji czasu rzeczywistego otwiera nowe zastosowania sieci Internet jako medium multimedialnego, zdolnego do transportu pakietów w sposób zdeterminowany. Zaproponowana w ramach publikacji [A] modyfikacja sposobu obliczania średniej długości kolejki pozwala na redukcję ograniczeń czasowych i lepsze wykorzystanie mechanizmu RED w transmisjach o miękkich ograniczeniach czasowych. Wkład autorski: Postawienie problemu badawczego: wpływ zmiany sposobu obliczania średniej długości kolejki na efektywność działania mechanizmu RED w obecności ruchu samopodobnego; Współudział w zaproponowaniu modyfikacji sposobu obliczania średniej długości kolejki w mechanizmie REDwM; 15
Współudział w dokonaniu przeglądu literatury skutkującego zaproponowaniem wykorzystania mechanizmów AQM w aplikacjach typu softreal time; Utworzenie symulacyjnego i markowowskiego modelu mechanizmu RE- DwM; Współudział w interpretacji uzyskanych wyników; Współudział w redakcji tekstu publikacji. Zachowanie mechanizmów AQM (RED, NLRED, CHOKE) w obecności strumieni TCP, UDP i XCP (publikacja [B]) Model zaproponowany w publikacji [B] rozszerza modele przepływowe opisane w literaturze, umożliwiające analizę zachowania kolejek AQM w obecności strumieni TCP, o uwzględnienie wpływu strumieni podlegających protokołom UDP oraz XCP. Zachowanie systemu regulacji natężenia transmisji w pętli zamkniętej, obejmującej nadawcę, odbiorcę, najbardziej obciążony router pomiędzy nimi, z uwzględnieniem opóźnień transmisji, opisane jest nieliniowymi równaniami różniczkowymi. Dynamika okna TCP dla i-tego strumienia jest aproksymowana równaniem: gdzie: dw i (t) dt = 1 R i (t) W i(t)w i (t R(t)) p(t R i (t)) 2R i (t R i (t)) W i (t) - przewidywany rozmiar okna nadawczego protokołu TCP (pakiet); określa on liczbę pakietów (bloków), które można wysłać bez czekania na nadejście potwierdzenia ich odbioru; natężenie transmisji jest proporcjonalne do rozmiaru tego okna, R i (t) = q(t) C + T p - czas RTT (ang. Round-trip time) (s), q(t) - długość kolejki (pakiet), C - pojemność łącza (pakiet/sec), T p - opóźnienie propagacji (s), p - prawdopodobieństwo utraty pakietu. 16
Człon 1 R i odpowiada za zwiększenie okna po uzyskaniu potwierdzenia. Człon (t) drugi odpowiada za zmniejszenie okna o połowę, zgodnie z zasadami działania protokołu TCP (po stracie pakietu w chwili (t R i (t))). Dynamika szybkości wysyłania dla i-tego strumienia UDP jest aproksymowana równaniem: Yi UDP (t) = U Dynamika szybkości wysyłania dla i-tego strumienia XCP jest aproksymowana równaniem: dyi XCP (t) dt = α XCP (Yi (t)(t d) C) β q(t d) d d2 gdzie α i β są parametrami sterującymi, a d jest średnią wartością czasu RTT. Dynamika kolejki jest aproksymowana równaniem: gdzie: dq(t) dt = n 1 i=1 n2 W i (t) R i (t) + n 1 - liczba strumieni TCP, n 2 - liczba strumieni UDP, n 3 - liczba strumieni XCP. i=1 Yi UDP (t) + R i (t) n 3 i=1 Yi XCP (t) C Uzyskanie rozwiązania polegało na numerycznym rozwiązaniu powyższego układu równań. Publikacja prezentuje analizę przepływową zachowania kolejek w mechanizmie RED oraz dwóch jego odmianach: CHOKe oraz NLRED. Uzyskane wyniki potwierdziły lepszą efektywność mechanizmu NLRED, który był wcześniej analizowany w pracy [C] w pętli otwartej, w stosunku do klasycznego mechanizmu RED. Zastosowanie aproksymacji przepływowej umożliwiło nie tylko sformułowanie powyższych wniosków, ale również obserwację zachowania mechanizmów AQM w stanie nieustalonym. Publikacja [B] prezentuje nowe podejście do użycia aproksymacji przepływowej do modelowania zachowania mechanizmów AQM. Nowe podejście jest bardziej elastyczne i pozwala na wgląd w dynamikę okna TCP w całkowicie odmiennych sytuacjach (interakcja pomiędzy heterogenicznymi strumieniami). W odróżnieniu od innych prac spotykanych w literaturze, publikacja [B] proponuje rozważanie niezależnych strumieni TCP i UDP oraz pozwala na rozpoczynanie i kończenie transmisji TCP, UDP oraz XCP w dowolnej chwili czasowej. Wkład autorski: 17
Postawienie problemu badawczego: zbadanie zachowania mechanizmu AQM w środowisku protokołów warstw wyższych; Dokonanie przeglądu literatury skutkującego wyborem aproksymacji płynnej jako metody odpowiedniej do rozwiązania problemu badawczego; Współudział w utworzeniu układu równań różniczkowych opisujących zachowanie mechanizmu AQM w środowisku protokołów TCP, XCP i UDP; Współudział w utworzeniu programu w języku Python umożliwiającego numeryczne rozwiązanie równań opisujących rozważany w publikacji model; Współudział w interpretacji uzyskanych wyników; Współudział w redakcji tekstu publikacji. 5 Opis dorobku oraz pozostałych osiągnięć naukowo-badawczych 5.1 Omówienie dorobku W okresie po doktoracie opublikowano 57 prac, z czego 28 indeksowanych jest w bazie Web of Science, a 8 publikacji posiada sumaryczny impact factor 16,571 (według listy Journal Citation Reports). Indeks Hirscha opublikowanych prac (według bazy Web of Science (WoS)) wynosi 4 (5) 3, a liczba cytowań publikacji według bazy WoS wynosi 50. Spis wszystkich publikacji zawarto w załączniku Wykaz publikacji. W ramach prac naukowych prowadzonych po uzyskaniu stopnia doktora, nie wyszczególnionych w ramach osiągnięcia opisanego w sekcji 4, kontynuowano prace nad modelowaniem natężenia ruchu, których zaczątek stanowiła rozprawa doktorska. Zajmowano się również problemem wyszukiwania zależności pomiędzy danymi - w oparciu o dane medyczne zgromadzone na przestrzeni kilku lat w ramach Polskiej Sieci Neonatologicznej. Poniżej zawarto krótki opis tych prac. 3 Jedno brakujące obce cytowanie publikacji [16] jest już widoczne w bazie Google Scholar, a ponieważ wydawnictwa Springer są indeksowane przez bazę Web of Science, powinno w niedługim czasie pojawić się również w wykazie WoS. 18
Analiza i modelowanie natężenia przesyłów internetowych Modele szacujące wydajność wymagają modeli ruchu, które potrafią odzwierciedlić statystyczną charakterystykę rzeczywistego ruchu. Jeżeli model ruchu niezbyt dokładnie reprezentuje ruch rzeczywisty, wtedy wynikająca z modelu wydajność sieci może zostać przekłamana (zawyżona lub zaniżona). Badano liczne modele ruchu, które są obecnie używane w procesie szacowania wydajności sieci i które opisują natężenie ruchu jako proces losowy. Szczególny nacisk położono na te modele wykorzystujące łańcuchy Markowa, które są w stanie reprezentować (w kilku skalach czasu) zależności długoterminowe obserwowane w rzeczywistym ruchu sieciowym. Markowowskie modele ruchu w łatwy sposób mogą zostać połączone z istniejącymi i szeroko stosowanymi markowowskimi modelami sieci stanowisk obsługi. Zajmowano się również sposobami wykrywania zależności długoterminowych w rzeczywistych zapisach ruchu sieciowego, ze szczególnym uwzględnieniem metod estymacji parametru Hursta, który charakteryzuje stopień samopodobieństwa procesu. Aktualny stan wiedzy w omawianej dziedzinie oraz wyniki prac własnych z tego zakresu zawarto m.in. w monografii [1], która została dołączona do wniosku. Analiza danych medycznych W ramach projektu Polska Sieć Neonatologiczna opracowano (100 % wkład autorski) aplikację webową umożliwiającą internetową rejestrację danych nadzoru nad zakażeniami na neonatologicznych oddziałach intensywnej terapii (NeoIT). Od roku 2009 gromadzono dane ze wszystkich liczących się oddziałów neonatologicznych w Polsce. Wprowadzony program nadzoru miał przede wszystkim na celu wsparcie wewnętrznych działań kontroli zakażeń i umożliwienie uzyskania odpowiedzi na pytania w zakresie epidemiologii i mikrobiologii zakażeń wśród noworodków z małą masą urodzeniową (< 1500 gramów) w trakcie leczenia stacjonarnego na oddziale NeoIT. Oprócz aplikacji pozwalającej na gromadzenie danych opracowano również oprogramowanie umożliwiające analizę statystyczną zgromadzonych danych. Stosując m.in. wieloczynnikową analizę wariancji, badano wpływ kilku czynników (zmiennych niezależnych) na zmienną zależną. Przykładowo: wyniki analizy wieloczynnikowej wykazały, że zabiegi chirurgiczne oraz wiek ciążowy są związane z ryzykiem wystąpienia LO-BSI (późna postać zakażenia krwi). Uzyskane wyniki zostały opublikowane w czasopismach uwzględnianych 19