Wykład jest przygotowany dla II semestru kierunku Elektronika i Telekomunikacja. Studia II stopnia Dr inŝ. Małgorzata Langer ZARZĄDZANIE SIECIAMI TELEKOMUNIKACYJNYMI Prezentacja multimedialna współfinansowana przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie Innowacyjna dydaktyka bez ograniczeń zintegrowany rozwój Politechniki Łódzkiej zarządzanie Uczelnią, nowoczesna oferta edukacyjna i wzmacniania zdolności do zatrudniania osób niepełnosprawnych Zadanie nr 30 Dostosowanie kierunku Elektronika i Telekomunikacja do potrzeb rynku pracy i gospodarki opartej na wiedzy 90-924 Łódź, ul. śeromskiego 116, tel. 042 631 28 83 www.kapitalludzki.p.lodz.pl
PRZEGLĄD DEFINICJI PRZYDATNYCH PRZY MODELOWANIU RozwaŜymy punkt widzenia konsumenta na dostępność systemu tak, jak widzi to TL 9000 Czas przestoju i dostępność są definiowane dla GŁÓWNEJ FUNKCJONALNOŚCI; wyraŝane w wartościach normalizowanych dla pojedynczego systemu, dla jednego roku Czasem wymaga to zdefiniowania zasadniczej funkcji dla danego systemu, lub uzgodnienia, co dla klienta jest tą główną funkcjonalnością Czas przestoju (downtime) jest ilością czasu, kiedy nie jest dostępna główna funkcjonalność systemu. PrzewaŜnie wyraŝamy go w minutach na rok; czasem bierzemy pod uwagę częściową i/lub całkowitą utratę funkcjonalności Niedostępność jest wyraŝoną w procentach wartością udziału czasu przestoju do całego roku 2
Dostępność Matematycznie jest to róŝnica: 100% - wartość niedostępności Praktycznie trzeba wziąć pod uwagę, czy częściowe niesprawności teŝ są zaliczane, czyli jak zdefiniowano główną funkcjonalność, dla której oblicza się dostępność Czas przestoju moŝe być przypisany winie produktu (projekt systemu, sprzęt, oprogramowanie, inne części systemu), lub winie klienta (zasilanie, warunki otoczenia, dołączony sprzęt naleŝący do klienta, niezgodność z instrukcją obsługi, itd.) 3
Przestoje częściowe w funkcji całkowitego Całkowity przestój definiowany jest jako utrata przynajmniej 90% moŝliwości systemu, utrata mniej niŝ 90% definiowana jest jako przestój częściowy Gdyby zliczać czasy przestoju ze współczynnikiem = 1, czas przestoju całkowitego, który trwał 10 minut były zaliczony jako 10 minut, czas przestoju, który spowodował utratę 50% moŝliwości i trwał 10 minut, byłby zaliczony jako 5 minut. W praktyce normy podają szczegółowe współczynniki dla poszczególnych kategorii produktu Trzeba uwaŝnie podchodzić do definiowania współczynników przy kaŝdej modyfikacji struktury; np. W systemie pracował zestaw dwóch serwerów baz danych, z czasem przestoju 10 minut. Z przyczyny braku zasobów, wprowadzono identyczny, następny zestaw dwóch serwerów. Teraz system zobaczy 10 minut od pierwszego i 10 minut od drugiego zestawu ale nie 20, bo obecnie kaŝdy zestaw daje tylko 50% utraty moŝliwości, czyli i tak mamy w sumie 10 minut 4
Reguły zliczania i pomijania Są to podane w normach reguły, które określają, jakie przestoje są zaliczane jako przestój systemu, a które mogą być pominięte Ustalenia są skutkiem negocjacji i uzgodnień interesy producentów i klientów są tu całkowicie rozbieŝne. TL 9000 specyfikuje zliczane czasy przestoju w oparciu o kategorię sprzętu. W większości kategorii pomija się przestoje krótsze niŝ 15 sekund oraz wpływające na mniej niŝ 10% moŝliwości systemu UWAGA: ze zliczaniem przestojów związane są koszty nie tylko technicznego zliczania, ale raportów, śledzenia itd. Istnieje więc zawsze punkt, gdy koszt zliczania przekraczałby straty spowodowane przez dany przestój 5
Przestoje nieplanowane NaleŜy załoŝyć (to znaczy oszacować na podstawie pomiarów w działającym systemie, laboratoryjnych oraz danych projektowych, strukturalnych itd.) parametry wejściowe, które pozwolą przewidzieć (oszacować przy pomocy modelu) nieplanowane przestoje. Do tych parametrów zaliczamy: - współczynniki występowania awarii - czasy odzyskiwania sprawności - pokrycie procedurami awarii (moŝliwość automatycznego wykrycia, alarmu i wdroŝenia akcji naprawczej) - czasy przełączania na rezerwę (failovers) 6
Współczynniki występowania awarii KaŜdy ze składników systemu posiada swój własny współczynnik występowania awarii. Współczynniki te podawane są w róŝnych jednostkach: - awarii na godzinę - FIT (awarii na 10 9 godzin) - MTBF (mean time between failure) średni czas pomiędzy awariami w godzinach lub latach - awarii na rok Wszystkie wartości uŝywane w dowolnym modelu muszą być przekonwertowane do jednej jednostki (np. awarii na godzinę) 7
Współczynnik awarii sprzętu Jest to współczynnik stabilnego stanu opisującego wydarzenia, gdy sprzęt wymaga działań konserwacyjnych lub naprawczych (zwykle wymiany na sprawny FRU field replacement of unit) MoŜe obejmować awarie sprzętu wpływające na usługę, i/lub nie Jest zmienny w czasie Ŝycia sprzętu FR współczynnik awarii KRZYWA W KSZTAŁCIE WANNY Okres dziecięcej śmiertelności Stały współczynnik awarii Koniec Czasu śycia Usługi Czas 8
Krzywa współczynnika awarii sprzętu Początkowy okres Ŝycia sprzętu to większa częstotliwość awarii spowodowana niedopracowaniem projektu, wadami materiałowymi, wadami w produkcji itp. moŝe trwać np. kilka miesięcy Potem współczynnik stabilizuje się na prawie stałym poziomie Wreszcie zuŝycie zaczyna powodować częstsze awarie WSZYSTKIE PROCEDURY PLANOWANIA I OBLICZEŃ WSPÓŁCZYNNIKA AWARII ODNOSZĄ SIĘ DO CZĘŚCI śycia, GDY POZIOM WSPÓŁCZYNNIKA JEST STABILNY Nie ma precyzyjnego określenia, kiedy naleŝy przyjąć koniec Ŝycia usługi, najczęściej przyjmuje się wartość z przedziału 125% - 200% wartośc stabilnego współczynnika FR Kształt wanny (dla wszystkich trzech okresów czasu Ŝycia) dobrze odzwierciedla rozkład statystyczny Weibulla 9
Współczynnik awarii oprogramowania Współczynnik wydarzeń związanych z oprogramowaniem, który wymaga restartu modułu, procesu, aplikacji, albo ponownego ich uruchomienia (reboot). Awaria nie jest tym samym co usterka (np. niewłaściwy kolor ekranu, błąd literowy w wyrazie, ale usługa jest wykonywana poprawnie) Współczynniki awarii oprogramowania ocenia się na podstawie danych testowych oraz eksploatacyjnych (omówimy je później) Współczynniki przestoju spowodowane awariami oprogramowania ocenia się na podstawie danych eksploatacyjnych 10
Czas odzyskania sprawności oprogramowania Prognozowanie tego czasu jest o wiele trudniejsze niŝ w przypadku sprzętu. ZaleŜy od przyjętej strategii i od prawdopodobieństwa sukcesu Najczęściej przyjmuje się trójstopniową (trójwarstwową) strategię odzyskiwania sprawności przy awarii oprogramowania: - ujawnienie awarii w pojedynczym zadaniu i procesie i zrestartowanie tego pojedynczego zadania lub procesu - jeŝeli to nie pomoŝe, automatycznie przechodzi się na drugi stopień i restartuje całą aplikację - jeŝeli bez sukcesu trzeci stopień oznacza ponowne uruchomienie (reboot) oprogramowania W przypadku niepowodzenia konieczna jest pomoc człowieka i ręczne odzyskanie sprawności 11
Czas naprawy sprzętu FRU Jest to średni czas wymagany do naprawy danego sprzętu (Field repaired unit). Zawiera zarówno czas konieczny dla wysyłki, transportu oraz sam czas poświęcony na wymianę. Największe znaczenie posiada dla urządzeń bez redundancji, mniejsze tu, gdzie automatycznie włącza się urządzenie zapasowe 12
Czas wykrycia awarii objętych procedurami Czas wykrycia na alarm i/lub znalezienia procedury (w ustalony sposób) obejmuje cały okres, który upływa do momentu podjęcia automatycznej akcji przywracania sprawności. Najczęściej czasy te są bardzo krótkie Czas wykrycia awarii nieobjętych procedurami Czas, jaki upływa do wykrycia, Ŝe system uległ awarii, która nie została automatycznie wykryta. Najczęściej wykryje to dopiero technik na podstawie alarmów o kłopotach w sąsiadujących systemach lub odchyłkach od normy w pomierzonych wielkościach. (Czas nie obejmuje naprawy) Czas ten przewiduje się na podstawie analizy danych eksploatacyjnych o przestojach. Najczęściej jest to zmienna niezaleŝna od innych parametrów 13
Czas restartu pojedynczego procesu Suma czasu wymagana do automatycznego rozpoznania awarii procesu i zrestartowanie tego procesu. Parametr ma zastosowanie przy systemach, które monitorują pojedyncze procesy i jest średnią dla wszystkich monitorowanych procesów Zamiast procesu moŝna monitorować i restartować zadania wtedy będzie to odpowiednio czas restartu pojedynczego zadania 14
Czas restartu całej aplikacji Jest to czas niezbędny do pełnego zainicjowania całej aplikacji. Nie obejmuje ponownego uruchamiania (reboot) ani restartu systemu operacyjnego Uwaga: niektóre procedury naprawcze mogą zawierać restart systemu operacyjnego lub restart platformy, ale czasy te nie są zaliczane do restartu aplikacji Czas uruchomienia (reboot) Czas uruchomienia to czas potrzebny na uruchomienie i inicjalizację całego systemu / serwera, włącznie z systemem operacyjnym i aplikacją. ZaleŜy oczywiście od samej aplikacji jeŝeli będą to olbrzymie bazy danych, które muszą być zsynchronizowane przy uruchomieniu, moŝe to zająć dziesiątki minut 15
Prawdopodobieństwo sukcesu przy restarcie Średnie prawdopodobieństwo dla wszystkich monitorowanych i objętych procedurami procesów, Ŝe restart procesu spowoduje odzyskanie podstawowej funkcjonalności systemu, za którą odpowiedzialny jest dany proces. Parametr wpływa na wielkość czasu odzyskiwania sprawności przy restarcie procesu. Dla restartu całej aplikacji prawdopodobieństwo, Ŝe jej zrestartowanie przywróci funkcjonalności systemu. Parametr wpływa na wielkość czasu odzyskiwania sprawności gdy wymagany jest restart aplikacji Prawdopodobieństwo sukcesu przy ponownym uruchomieniu - analogicznie 16
Definicja objęcia procedurami Jest to prawdopodobieństwo; wyraŝa się w % Jedno usprawnienie, czy rozwiązanie moŝe wykrywać kilka rodzajów błędów, ale bardzo trudno jest znaleźć liczbowe korelacje, więc przyjmuje się zmienne niezaleŝne RozróŜnia się wartości przypisane do sprzętu, do oprogramowania; jeden mechanizm moŝe wykrywać i jedne, i drugie awarie Awarie muszą być wykrywane automatycznie Przy systemach z redundancją jest to główny parametr wpływający na czas przestoju 17
Prawdopodobieństwo wykrycia nieudanego restartu JeŜeli system nie wykryje automatycznie, Ŝe restart, lub reboot był nieudany, niesprawność pozostanie niewykryta aŝ do momentu zauwaŝenia przez technika. Niektóre systemy dokonują kilku prób restartu, inne tylko jednej 18
Przełączenie Parametry istotne są tylko w systemach z redundancją; gdy nie ma rezerwy nie ma na co przełączać WyróŜniamy: - czas automatycznego przełączenia (TL9000 nie zalicza do czasu przestoju czasów krótszych od 15 sekund) - czas ręcznego przełączenia (wykrycie i przełączenie przez technika) ręcznie przełącza się dopiero gdy automatyczne przełączenie zawiedzie - prawdopodobieństwo sukcesu automatycznego przełączenia - prawdopodobieństwo sukcesu ręcznego przełączenia Gdy zawodzi ręczne przełączenie oznacza to zazwyczaj, Ŝe rezerwa równieŝ ma awarię i odzyskanie sprawności trwa znacznie dłuŝej 19
Ocena parametrów i dostępności z danych eksploatacyjnych Zapisy awarii i przestojów zawierać powinny przynajmniej następujące dane: - data i godzina wystąpienia przestoju - identyfikator sprzętu (model, lokalizacja, numer seryjny ) - zakres przestoju (ilu abonentów dotyczył, lub procent utraty sprawności) - czas trwania przestoju (najczęściej w minutach lub sekundach) - zwięzły opis awarii/niesprawności/zakłócenia - zastosowane rozwiązanie (np. wymiana, reset, itp.) - domniemana przyczyna (np. Błąd procedury, planowana konserwacja, awaria sprzętu, itp.) Mogą oczywiście zawierać równieŝ inne dane: dostawca sprzętu, awaryjne lub inne przełączenie, itd. JeŜeli klient sam dokonuje konserwacji i drobnych napraw, celowe jest uzyskiwanie równieŝ jego zapisów do analizy 20
Analiza danych eksploatacyjnych Na podstawie analizy danych pomierzonych oraz uzyskanych od wybranych klientów, moŝna: - obliczyć i porównać czasy przestoju - dokonać kategoryzacji przestojów - znormalizować utratę moŝliwości - obliczyć czas pracy i znormalizowany czas pracy - obliczyć częstotliwość przestojów - obliczyć dostępność Uwaga: taka analiza moŝe dać gorsze dane, niŝ widzi to konsument! Wyniki takiej analizy najczęściej są ściśle poufne 21
Czas pracy Mierzy się w latach Podaje się tzw. czas kontaktu (exposure time) sumę czasu pracy wszystkich elementów; wynik otrzymuje się w tzw. znormalizowanych latach pracy m ce N x dni w 365,25 mies. 22
Współczynnik przestoju Dla danego elementu lub systemu jest to iloraz sumy wszystkich przestojów przypisanych do tego sprzętu do liczby znormalizowanych lat pracy Współczynniki przestoju oblicza się oddzielnie dla sprzętu i oprogramowania, dla danych usług, itd. Odwrotność współczynnika przestoju daje średni czas, jaki upływa pomiędzy przestojami: MTTO mean time to outgage MTTO modeluje się rozkładem wykładniczym 23
Szacowanie wielkości współczynnika przestoju Na podstawie obserwacji mamy n awarii podczas T jednostek czasu; np. 60 awarii w ciągu 50.000 godzin Wartość λ współczynnika oblicza się ze wzoru: = λ 60 50000 = 0,0012 Przestojów/godzinę Zakładamy poziom ufności naszego oszacowania np. 90% Granice przedziału dla tego poziomu oblicza się z rozkładu Chikwadrat 24
c.d. χ 2 χ 2 1 ( α / 2),2n ( α / 2),2n λ = λ = d g 2T 2T Czyli dla naszego przykładu: Znajdujemy w tablicach wartości χ 2 dla α = 0,10 (czyli α/2=0,05) i n=60, czyli 2n=120 λ d =0,000957 λ g = 0,001465 25
Dostępność i niedostępność Posiadając współczynniki awarii (λ) i napraw (µ) moŝna obliczyć niedostępność na podstawie wzoru: U = λ/(λ + µ) lub korzystając z danych eksploatacyjnych: U = r/(r+m) gdzie m jest średnim czasem sprawności, r postoju Zgodnie z teorią, której nie przytoczymy, dla granic przedziału wartości niedostępności, przy załoŝonej ufności korzysta się z rozkładu F; wartości stałych φ oraz φ znajdujemy w tablicach U L =r/(r+φ m) oraz U U =r/(r+φ m) 26
Przykład Wybrano 10 kolejnych (lub wg jakiegoś losowego algorytmu) przestojów i okresów sprawności. Po zsumowaniu uzyskano r=5 godzin; m=2000 dni = 48.000 godzin Punktowa wartość niedostępności dla tych wartości wynosi: U=5/(48000 + 5)= 0,000104 Obliczamy granice przedziału dla 90% poziomu ufności; czyli α=0,90 oraz (1-α)/2=0,05 W tablicach znajdujemy dla rozkładu F φ = 2,12 oraz φ =1/φ = 0,471 Podstawiając do wzorów otrzymujemy dolną granicę przedziału, U L =0,0000491 oraz górną U U =0,000221 27
Wnioski dla obliczonych wartości Punktowe oszacowanie niedostępności wynosi 0,000104 dostępność wynosi więc 99,9896% Istnieje 90% prawdopodobieństwa, Ŝe prawdziwa wartość niedostępności mieści się w przedziale pomiędzy 0,0000491 a 0,000221 dostępność mieści się więc w przedziale pomiędzy 99,9779% a 99,99509% Dla innego progu ufności otrzymamy oczywiście inne granice przedziału 28
Ocena parametrów wejściowych na podstawie danych laboratoryjnych Postępuje się zgodnie z uznanymi i opisanymi metodami Badania laboratoryjne mogą być skutkiem reklamacji klienta. JeŜeli wynika ona np. z braku wyszkolenia, właściwej diagnostyki, itp., okaŝe się, Ŝe wynik jest: - NFF (no fault found) - NTF (no trouble found) Nie oznacza to, Ŝe nie ma problemu, jednak trzeba podstawiać właściwe wartości przy obliczeniach współczynników awarii, postoju, itd. Szczególnie dotyczy to współczynników zwrotu 29
Współczynniki zwrotu w TL9000 Dla danego zespołu, systemu, pakietu itp. w oparciu o czas uzytkowania, rozróŝniamy: ERI (early return indicator) współczynnik zwrotu w ciągu pierwszych 6 miesięcy po dostawie sprzętu YRR (yearly return rate) współczynnik zwrotu w ciągu pierwszego roku po ERI LTR (long-term return rate) współczynnik zwrotu w ciągu całego okresu po YRR 30
Badanie software u SRGM software reliability growth modelling. Techniki stosowane do modelowania procesów wykrywania uszkodzeń zakłada się Ŝe proces ujawniania uszkodzeń spełnia niehomogeniczny (czyli średnia rozkładu nie jet stałą, ale raczej funkcją zmienną w czasie) rozkład Poissona (NHPP) Metody mapowania (wielkość kodu, złoŝoność, dojrzałość) i rankingu Liczba defektów na tysiąc linii kodu (KLOC) W testach laboratoryjnych ujawnia się znacznie więcej błędów, pluskiew itp. niŝ podczas eksploatacji (uŝytkownik raczej korzysta z aplikacji w danym celu) 31
KONIEC CZĘŚCI PIERWSZEJ Dr inŝ. Małgorzata Langer ZARZĄDZANIE SIECIAMI TELEKOMUNIKACYJNYMI Prezentacja multimedialna współfinansowana przez Unię Europejską w ramach Europejskiego Funduszu Społecznego w projekcie Innowacyjna dydaktyka bez ograniczeń zintegrowany rozwój Politechniki Łódzkiej zarządzanie Uczelnią, nowoczesna oferta edukacyjna i wzmacniania zdolności do zatrudniania osób niepełnosprawnych Zadanie nr 30 Dostosowanie kierunku Elektronika i Telekomunikacja do potrzeb rynku pracy i gospodarki opartej na wiedzy 90-924 Łódź, ul. śeromskiego 116, tel. 042 631 28 83 www.kapitalludzki.p.lodz.pl