Planowanie utrzymania dla złożonych sieci. CCNP TSHOOT Rick Graziani Łukasz Sturgulewski

Planowanie utrzymania dla złożonych sieci CCNP TSHOOT Rick Graziani Łukasz Sturgulewski

Plan prezentacji Metodologie utrzymania Procesy i procedury utrzymania Narzędzia, aplikacje, zasoby w utrzymaniu sieci 2

Bez tych procesów i narzędzi Inżynier sieciowy jest w tarapatach. 3

Radia Perlman Analogia do rozwiązywania problemów (nauka życia) Zanim rozwiążesz problem, poznaj problem, który starasz się rozwiązać. 4

Planowanie utrzymania dla złożonych sieci Konfiguracja i implementacja jest ciekawa / ekscytująca Planowanie i dokumentacja niekoniecznie. 5

Metodologie utrzymania Modele utrzymania sieci i metodologie Procedury i narzędzia związane z utrzymaniem sieci

Metodologie utrzymania (Maintenance Methodologies) Wsparcie (support) i utrzymanie (maintenance) CEL: Utrzymać sieć dostępną / działającą z minimalnymi przerwami w działaniu oraz na akceptowalnym poziomie wydajności. ROZWIĄZANIE: strukturalne utrzymanie sieci (Structured Network Maintenance) 7

Modele utrzymania sieci i metodologie Praca inżyniera sieciowego związana jest zadaniami takimi jak: Instalacja i utrzymanie w działaniu urządzeń (także utylizacja!) Reagowanie na błędy Badanie wydajności sieci Procedury biznesowe Bezpieczeństwo 8

Interrupt Driven W wielu mniejszych sieciach model utrzymania: interrupt driven Użytkownik ma problem Problem z wydajnością aplikacji Incydent bezpieczeństwa został zarejestrowany Czyli jedynie awaria / problem generuje działania Wady: Inne działania korzystne dla długoterminowego zdrowia (health) sieci mogą być opóźnione lub nigdy niewykonane. Zadania są wykonywane w kolejności zgłoszenia a nie priorytetów czy pilności. Może powodować dłuższe przestoje sieci (brak przygotowania do awarii, brak wczesnego wykrywania). Brak możliwości unikania przestojów sieci w wyniku awarii Możliwe tylko poprzez aktywne monitorowanie sieci i zarządzanie nią. 9

Structured Network Maintenance Alternatywą dla metody interrupt-driven jest structured network maintenance. Zalety: Zredukowany czas przestoju sieci: Wykrywanie problemów zanim wystąpią. Lepsza efektywność kosztów: Budżet adekwatny do potrzeb i wybór właściwego wyposażenia. Lepsze dopasowanie do celów biznesowych: główne prace nie są planowane w czasie krytycznych dla biznesu godzin. Wyższe bezpieczeństwo sieci: obserwowanie podatności i planowanie zwiększenia bezpieczeństwa sieci. 10

Strukturalne metodologie utrzymania sieci IT Infrastructure Library (ITIL) - This is a framework of best practices for IT Service Management. ITIL describes best practices that help in providing high quality IT services that are aligned with business needs and processes FCAPS - ISO (Fault management, Configuration management, Accounting management, Performance Management, and Security Management) Telecommunications Management Network (TMN) - ITU-T The Telecommunications Standardization Sector (ITU-T) integrated and refined the FCAPS model to create this approach, which defines a framework for the management of telecommunications networks. PPDIOO model, based on the names of the six phases of the network lifecycle: Prepare, Plan, Design, Implement, Operate and Optimize. Network maintenance tasks are usually considered part of the Operate and Optimize phases of the cycle. 12

Strukturalne metodologie utrzymania sieci FCAPS 13

Procesy i procedury utrzymania sieci Backup and Recovery Inżynier sieciowy musi: Identyfikować główne zadania związane z utrzymaniem sieci. Doceniać zalety planowego utrzymania sieci. Określać procedury kontroli zmian. Określać podstawowe elementy dokumentacji sieciowej. Zaplanować działania / naprawy po awarii. Doceniać znaczenie ciągłego monitorowania sieci i pomiaru wydajności. 14

Zadania związane z utrzymaniem sieci Plan utrzymania sieci musi zawierać procedury dla: Dodawania, przenoszenia, zmiany, wycofania Instalacji i konfiguracji nowych urządzeń Wymiany uszkodzonych urządzeń (np. sprawdzanie jest szybko zespoły to wykonają) Kopie konfiguracji i systemów operacyjnych urządzeń Rozwiązywanie problemów problemy z połączeniami oraz urządzeniami Zarządzanie oprogramowaniem i systemami operacyjnymi (upgrad, patch) Monitorowanie sieci Pomiar wydajności, planowanie wydolności systemu Tworzenie i aktualizacja dokumentacji 15

Planowanie utrzymania sieci Harmonogram utrzymania (konserwacji): Interrupt driven albo część procesu utrzymania Harmonogram gwarantuje, że zadania będą regularnie wykonywane i nie zgubisz się w codziennym natłoku pracy. Żądania zmiany nie muszą być wykonywane natychmiast lecz w następnym, zaplanowanym oknie czasowym. Pozwala prawidłowo priorytetyzować zadania. Planowana konserwacja, zadania powodujące zakłócenia w działaniu sieci są zaplanowane poza godzinami pracy. 16

Procedury kontroli zmian (Change-Control) Każda zmiana jest związana z ryzykiem wystąpienia pomyłek, konfliktów lub błędów. Określenie wpływu zmiany na działanie sieci. Wyważenie tego wpływu do pilności zmiany. Zmiany o wysokim wpływie są wykonywane podczas okna utrzymania zaplanowanego wg harmonogramu. 17

Procedury kontroli zmian (Change-Control) Zmiany jakiego typu wymagają autoryzacji? Które zmiany mogą zostać wykonane w trakcie okna konserwacji a jakie zmiany muszą być wykonywane natychmiast? Jakiego rodzaju przygotowania należy zrobić przed wprowadzeniem zmian? Jakiego rodzaju weryfikacji należy dokonać, aby potwierdzić, że zmiana była skuteczna? Jaką dokumentację lub komunikację należy podjąć po udanej zmianie? Jakie działania należy podjąć, gdy zmiana niesie nieoczekiwane rezultaty lub powoduje problemy? 18

Procedury tworzenia dokumentacji sieci Rysunki sieci: struktura fizyczna i logiczna Dokumentacja połączeń: ścieżki, połączenia, obwody zasilania Lista wyposażenia: wszystkie urządzenia, PN, SN, zainstalowana wersja oprogramowania, licencje na oprogramowanie, informacje o gwarancji/serwisie Administracja adresami IP: schemat tworzenia podsieci, wszystkie adresy IP Konfiguracje: wszystkie aktualne i archiwalne konfiguracje urządzeń Dokumentacja projektowania: dlaczego to zrobiliśmy? 19

Wdrożenie efektywnej komunikacji Utrzymywanie sieci to najczęściej praca wykonywana przez zespół Komunikacja jest kluczem! Kto dokonuje zmian i kiedy? Jak zmiany wpływają na innych? Jakie są wyniki testów i jakie wnioski zostały wyciągnięte? Działanie jednego członka zespołu mogą zakłócać pracę pozostałych inżynierów. 20

Standaryzacja! Ważne, aby zadania były wykonywane konsekwentnie: Czy znaczniki czasu ustawione są na: local time, Coordinated Universal Time (UTC), uptime? Czy ACL powinny kończyć się za pomocą "deny all"? Czy w podsieci pierwszy dozwolony adres IP przypisywany jest bramie domyślnej? Różne metody mogą prowadzić do pomyłek, szczególnie podczas rozwiązywania problemów. 21

Planowanie odtwarzania po katastrofie Należy zawsze uwzględniać możliwość awarii urządzenia! Nadmiarowość w sieci, w krytycznych punktach (eliminacja pojedynczych punktów awarii). Ze względu na ograniczenia budżetowe nie jest zawsze możliwe aby każdy pojedynczy link, element i urządzenie były nadmiarowe. Katastrofy naturalne np. powódź lub pożar w sali serwerowej. 22

Planowanie odtwarzania po katastrofie Wymiana uszkodzonego urządzenia (to mamy do zrobienia w labie!): Wymiana urządzenia Aktualna wersja oprogramowania dla urządzenia Aktualna wersja konfiguracji dla urządzenia Narzędzia do sprawnego transferu softu i konfiguracji do urządzenia Licencja Znajomość procedur instalacji softu, konfiguracji i licencji 23

Monitorowanie sieci i pomiar wydajności Monitorowanie zdrowia sieci Pomaga przekształcić proces konserwacji sieci z modelu interruptdriven na bardziej metodyczny / planowany / strukturalny Ważny jest wybór zmiennych, które będą mierzone i monitorowane: Status interfejsów Obciążenie interfejsów Obciążenia CPU Wykorzystanie pamięci Bardziej wyszukane metryki: delay, jitter, packet loss 24

Utrzymanie sieci: narzędzia, aplikacje i zasoby Utrzymanie sieci: wybierz narzędzia, aplikacje i zasoby: polecenia oprogramowanie serwery 26

Podstawowe narzędzia Monitorowanie za pomocą poleceń CLI: show debug Embedded Device Manager (EEM) IP SLA Telnet / SSH 27

Podstawowe narzędzia Graphical User Interface (GUI) HTTP / HTTPS Syslog / SNMP / NetFlow (zabbix, nagios, ) SIEM 28

Podstawowe narzędzia Serwery kopii zapasowych: TFTP FTP HTTP / HTTPS Secure Copy Protocol (SCP) 29

Podstawowe narzędzia Serwer czasu: Network Time Protocol (NTP) 30

Spojrzenie na NTP Urządzenia muszą posiadać spójny / zsynchronizowany czas Właściwy znacznik czasu dla logów i debugowania Stratum 1 server: serwer bezpośrednio podłączony pod autorytatywne źródło czasu takie jak zegar atomowy. Statum 2 server: Serwer który synchronizuje zegar z serwerem Stratum 1. itd. 31

Narzędzia konfiguracji i dokumentacji Istnieje wiele webowych (online) narzędzi i zasobów związanych z konserwacją, które mogą być przydatne podczas planowania i wdrażania procedur konserwacji sieci. Narzędzia konfiguracji i dokumentacji Excel ;) Wiki: łatwość dostępu poprzez web z intuicyjnością możliwości edycji. 33

Dokumentacja Systemy śledzenia problemów: tiketownie (trouble ticket, support ticket, incident ticket system) Dzięki nim problemy mogą być: logowane, śledzone, dokumentowane. Lepsza komunikacja i eskalacja zdarzeń. Pozwala zespołowi pracować nad tymi samymi zdarzeniami w spójny / skuteczny sposób. Pozwala budować historyczną bazę problemów, wykonanych działań oraz wyników. 38

Usługi logowania Zdarzenia z urządzeń sieciowych mogą być rejestrowane: Różne zdarzenia Różne poziomy istotności Zdarzenia mogą być logowane do: Konsola (domyślnie) wyświetlane na konsoli buforowane zapisywane na urządzeniu Serwer Przykłady: Interface: up / down Zmiana konfiguracji Zmiana sąsiadów w protokole routingu 39

Usługi logowania Poziomy ważności dla usługi Syslog: (0) Emergencies (1) Alerts (2) Critical (3) Errors (4) Warnings (5) Notifications (6) Informational (7) Debugging Admin decyduje jaki poziom ważności i gdzie będzie rejestrowany 40

Monitorowanie sieci i narzędzia pomiaru wydajności Narzędzia do zarządzania urządzeniami oparte na GUI i CLI są używane do sprawdzania poszczególnych urządzeń po wykryciu problemu. System monitorowania sieci stale sprawdza dostępność i stan urządzeń sieciowych: Wykryje możliwe problemy zaraz po ich wystąpieniu Czasami nawet zanim staną się widoczne dla użytkowników końcowych! Używanie protokołów takich jak SNMP, NETFLOW i ICMP Szara strefa między monitorowaniem sieci a pomiarem wydajności. 45

Motywacja do pomiaru wydajności sieci Planowanie pojemności systemu: Tworzenie baseline dla ruchu sieciowego Rozpoznawanie trendów statystykach ruchu Przewidywanie momentu w którym mogą powstać zatory i problemy z wydajnością. Diagnozowanie problemów z wydajnością: trudne do rozwiązania, trudne do określenia ilościowego, niestabilne ze swojej natury. Aplikacja X działa naprawdę wolno... Co powoduje problem? Kiedy to się dzieje? Zgodność ze SLA: Gwarantuje poziom usług do innych zasobów własnych czy dostawcy. 46

Pomiar wydajności sieci Typowe zbierane statystyki zawierają: Liczniki pakietów i bajtów na interfejsach Wysycenie CPU i pamięci Round Trip Time (RTT) Jitter Utracone pakiety Analizowanie i wizualizacja za pomocą produktów takich jak: Zabbix http://jondot.github.io/graphene/ Multi Router Traffic Grapher (MRTG) Nagios 47

Implementacja przywracania z kopii i przywracania usług Kluczowy element każdego systemu przywracania systemu sieciowego Najprostszy i najczęściej implementowany jest serwer TFTP Brak dodatkowej konfiguracji na urządzeniach sieciowych Bardziej bezpieczne są protokoły FTP, SCP, HTTP, HTTPS 48

Implementacja przywracania z kopii i przywracania usług Przykłady poleceń (Cisco): Copy Archive Configure Replace 49

Przywracanie systemu po katastrofie Powodzenie przywracania systemu po katastrofie zależy od: Aktualności kopii konfiguracji Aktualności kopii oprogramowania Aktualności inwentarza urządzeń Narzędzi wspomagających zarządzaniem konfiguracjami i oprogramowaniem 56